The Role of Subgroup Separability in Group-Fair Medical Image Classification

本文主要是介绍The Role of Subgroup Separability in Group-Fair Medical Image Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • The Role of Subgroup Separability in Group-Fair Medical Image Classification
    • 摘要
    • 方法
    • 实验结果

The Role of Subgroup Separability in Group-Fair Medical Image Classification

摘要

研究人员调查了深度分类器在性能上的差异。他们发现,分类器将个体分成子群的能力在医学影像模态和受保护特征之间存在显著差异;关键的是,他们表明这一特性能够预测算法偏差。通过理论分析和广泛的实证评估(代码可在 https://github.com/biomedia-mira/subgroup-separability 获取),他们发现子群可分性、子群差异和性能降级之间存在关系,尤其是在模型训练数据具有系统偏差(如欠诊断)的情况下。这些发现为模型如何产生偏见提供了新的视角,为公平医学影像人工智能的发展提供了重要见解。

方法

考虑一个二元疾病分类问题,对于每个图像 x ∈ X x \in X xX,我们希望预测一个类别标签 y ∈ Y : { y + , y − } y \in Y : \{y^+, y^-\} yY:{y+,y}。我们将 P : [ Y ∣ X ] → [ 0 , 1 ] P : [Y|X] \rightarrow [0, 1] P:[YX][0,1] 表示图像和类别标签之间的基础映射。假设我们可以访问一个(有偏差的)训练数据集,其中 ( P_{\text{tr}} ) 是训练图像和训练标签之间的条件分布;如果 P tr ! = P P_{\text{tr}} != P Ptr!=P,我们称这样的数据集是有偏的。我们关注群体公平性,其中每个个体属于一个子群 a ∈ A a \in A aA,并且旨在学习一个公平模型,当部署在从 P P P 绘制的无偏测试数据集上时,该模型可以在所有群体上实现最佳性能。我们假设群体在两个数据集中保持一致。在这项工作中,我们考虑的偏差是欠诊断,这是一种标签噪音,其中一些真正的阳性个体 x + x^+ x+ 被误标为阴性。我们特别关注由于历史上医疗保健供给不平等或歧视性诊断政策而导致的欠诊断在特定子群中表现出来的情况。形式上,如果群体 A = a ∗ A = a^* A=a 满足式 (1),则称该群体为欠诊断:
在这里插入图片描述
现在可以使用总概率法则,根据方程(2)中的子群映射来表达从图像到标签的整体映射。结合方程(1),这意味着方程(3)——在有偏训练数据集中,将真正的阳性个体分配为阳性标签的概率低于无偏测试集。
在这里插入图片描述
在训练过程中,使用经验风险最小化的监督学习旨在获得一个模型 (\hat{p}),将图像映射到预测的标签 y ^ = argmax y ∈ Y p ^ ( y ∣ x ) \hat{y} = \text{argmax}_{y \in Y} \hat{p}(y|x) y^=argmaxyYp^(yx),使得对所有 ( x , y ) (x, y) (x,y) ,近似于 P tr ( y ∣ x ) P_{\text{tr}}(y|x) Ptr(yx)。由于该模型反映了有偏的训练分布,我们预期在无偏测试集上评估时,来自训练数据的欠诊断将在学习到的模型中体现出来。然而,学得模型的错误分布取决于子群可分性。根据方程(2),个体预测是每个子群映射的线性组合,权重是每个个体属于每个群体的概率。当子群可分性较高时,由于敏感信息的存在,模型会学习到每个子群的不同映射,如方程(4)和(5)所示。因此,该模型在保留其他群体的无偏映射的同时,会对群体 A = a ∗ A = a^* A=a 进行欠诊断。
在这里插入图片描述
Equation (4) 和 (5) 显示,在测试时,我们的模型在欠诊断的子群中将表现出比其他子群更差的性能。实际上,考虑真正率(True Positive Rate,TPR)作为性能指标。无偏模型的群体真正率 TPR ( a u ) \text{TPR}(a_u) TPR(au) 在方程 (6) 中表示。
在这里插入图片描述
这里, N + , a N_{+,a} N+,a 表示测试集中属于群体 ( a ) 的阳性样本数。请记住,在实践中,我们必须在有偏的训练分布 P tr P_{\text{tr}} Ptr上训练我们的模型。因此,我们从方程 (4) 和 (5) 推导出这样一个模型的测试时真正率 TPR b a \text{TPR}_b^a TPRba,得到方程 (7) 和 (8)。
在这里插入图片描述
在高子群可分性的情况下,方程 (7) 和 (8) 表明欠诊断群的真正率直接受到训练集中的偏差影响,而其他群体主要不受影响。鉴于各群体之间的差异,一个合适选择的群体公平度量可能能够识别出偏差,有时甚至不需要访问无偏测试集。另一方面,当子群可分性较低时,这个性质并不成立。对于不可分离的群体(即 P ( a ∣ x ) ≈ 1 ∣ A ∣ P(a|x) \approx \frac{1}{|A|} P(ax)A1 ,对于所有 a ∈ A a \in A aA),训练模型将无法学习到不同的子群映射,如方程 (9) 所示。
在这里插入图片描述
方程 (3) 和 (9) 暗示训练模型的性能对所有群体都会下降。回到真正率 (TPR) 的例子,当可分性较差时,方程 (10) 表示所有群体的性能下降。在这种情况下,我们期望性能下降在各个群体之间是均匀的,因此不会被群体公平性指标检测到。性能下降的严重程度取决于欠诊断子群中受损标签的比例以及数据集中欠诊断子群的大小。
在这里插入图片描述
我们已经推导出了欠诊断偏差对分类器性能的影响,针对高和低子群可分性这两种极端情况。在实践中,真实数据集的子群可分性可能在这些极端之间连续变化。在第 4 节中,我们通过实证研究探讨了以下几个方面:(i) 在真实环境中子群可分性如何变化,(ii) 当向数据集中添加欠诊断偏差时,可分性如何影响每个群体的性能,(iii) 模型如何在其表示中编码敏感信息。

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于The Role of Subgroup Separability in Group-Fair Medical Image Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/955553

相关文章

matlab读取NC文件(含group)

matlab读取NC文件(含group): NC文件数据结构: 代码: % 打开 NetCDF 文件filename = 'your_file.nc'; % 替换为你的文件名% 使用 netcdf.open 函数打开文件ncid = netcdf.open(filename, 'NC_NOWRITE');% 查看文件中的组% 假设我们想读取名为 "group1" 的组groupName

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

AI辅助编程里的 Atom Group 的概念和使用

背景 在我们实际的开发当中,一个需求往往会涉及到多个文件修改,而需求也往往有相似性。 举个例子,我经常需要在 auto-coder中需要添加命令行参数,通常是这样的: /coding 添加一个新的命令行参数 --chat_model 默认值为空 实际上这个需求涉及到以下文件列表: /Users/allwefantasy/projects/auto-coder/src/autocoder/auto

group by 新体会

group by 分组语句中的 select 后面查询的东西,只能是 group by 中的字段或聚合函数,如果含有group by 中的没有的字段,sql 会报错。 表users   例子:  1.select count(1),sex from users group by sex; sql执行正确   2.select count(id),sex from users gr

Convolutional Neural Networks for Sentence Classification论文解读

基本信息 作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点 将CNN应用于NLP,打破了传统NLP任务主要依赖循环神经网络(RNN)及其变体的局面。 用预训练的词向量(如word2v

IMAGE LIST

   CImageList就是一个容器,用来存储图片资源,方便这些资源被CListBox,CComboBox,CComboBoxEx,CTabCtrl以及CTreeCtrl,CListCtrl等使用。      要使用CImgeList首先要使用它的create函数:      一般用的比较多的是这一个函数,当然,它还有很多重载,自己可以去翻阅msdn.       BOOL

data-role参数表

data-role参数表: page        页面容器,其内部的mobile元素将会继承这个容器上所设置的属性  header     页面标题容器,这个容器内部可以包含文字、返回按钮、功能按钮等元素 footer       页面页脚容器,这个容器内部也可以包含文字、返回按钮、功能按钮等元素 content     页面内容容器,这是一个很宽容的容器,内部可以包含标准的h

【vscode】vscode paste image插件设置

本文首发于 ❄️慕雪的寒舍 vscode编辑md文件的时候,如果想插入图片,自带的粘贴只会粘贴到当前目录下,也没有文件重命名,很不友好。 在扩展商店里面有mushan的Paste Image插件,相比自带的,更加友好一点。但是它的配置把我弄糊涂了,简单测试了一下才明白处理的逻辑。 注意,本文编写的是对mushan的Paste Image插件的教程。 首先是安装这个插件,这个不多说

pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二)

pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二) pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二)DatasetInputs to modelCaption LengthsData pipelineEncoderAttentionDecoder代码数据集初始化 create_input_files.py训练 tr

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr