谷歌发布 HEAL 架构,4 步评估医学 AI 工具是否公平

2024-05-07 13:44

本文主要是介绍谷歌发布 HEAL 架构,4 步评估医学 AI 工具是否公平,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果把维持健康状态想象成一场赛跑,并不是所有人都能够站在统一起跑线上,有的人能够平稳的跑完全程,有的人即使跌倒也能够在第一时间获得帮助,但是有些人可能因为经济条件、居住地、教育水平、种族或其他因素而面临更多障碍。

「健康公平」意味着每个人都应该获得平等的健康医疗资源,才能够更加从容地完成这场赛跑,达到最佳的健康状态。 部分群体(如少数族裔、低社会经济地位人群或医疗保健获取能力有限的个体)在疾病预防、诊断和治疗方面受到不公平对待,会极大地影响其生活质量和生存机会。毫无疑问,提高对「健康公平」的关注度应该在全球范围在成为共识,从而进一步解决导致不平等的根本原因。

如今,虽然机器学习、深度学习等已经在医疗健康领域「有所建树」,甚至已经走出实验室、走向临床一线。感叹于 AI 的强大能力时,人们更应该关注,这一类新兴技术的落地应用,是否会加剧健康资源不平等现象呢?

图片

健康公平评估示意图

  • 浅蓝色条表示预先存在的健康结果

  • 深蓝色条形图说明了干预措施对预先存在的健康结果的影响

为此,Google 团队开发了 HEAL (The health equity framework) 框架,能够定量评估基于机器学习的医疗健康方案是否「公平」。 通过这种方法,研究团队试图确保新兴的健康技术能够有效地减少健康不平等,而不是无意中加剧这些不平等。

HEAL 架构:4 步评估皮肤科 AI 工具公平性

HEAL 框架包含 4 个步骤:

  1. 确定与卫生健康不公平有关的因素,并定义 AI 工具性能指标

  2. 明确并量化先前存在的健康差异 (disparities)

  3. AI 工具性能测试

  4. 衡量 AI 工具优先考虑健康公平差距的可能性

图片

HEAL 架构,以皮肤科疾病诊疗 AI 工具为例

第一步:确定皮肤科中与健康不公平有关的因素,明确评估 AI 工具性能的指标

研究人员通过查阅文献并综合考虑数据可用性,选定以下因素——年龄、性别、种族/族裔和 Fitzpatrick skin type (FST)。

FST 是根据人体皮肤对紫外线 (UV) 辐射、特别是晒伤和晒黑的反应,对皮肤进行分类的系统。范围从 FST I 到 FST VI,每种类型代表皮肤、眼睛和头发黑色素生成的不同水平,以及对紫外线的敏感度。

此外,研究人员选择 top-3 agreement 作为评估 AI 工具性能的指标,其定义是,AI 建议的前 3 项条件中至少有一项与皮肤科专家小组的参考诊断相匹配的病例比例。

第二步:确定皮肤科现存的「健康差异」

健康差异指标是用来量化、描述不同群体之间的健康状态不平等的具体量度。这些群体根据种族、经济状况、地理位置、性别、年龄、残疾状况或其他社会决定因素进行区分。

以下是一些常见的健康差异指标:

失能调整生命年 (disability-adjusted life years, DALYs) :反映由于疾病、伤残或早逝造成的健康生命损失年数。DALY 是一种综合指标,是寿命损失年数 (years of potential life lost, YLLs) 和带疾病生活的年数 (years lived with disability, YLDs) 的加总。

生命损失年数(YLLs) :由于早逝而损失的预期健康年数。

同时,研究人员还对皮肤癌进行了子分析 (sub-analysis),以理解 AI 工具的性能在高风险条件下的变化。研究使用 Global Burden of Disease (GBD) 的「非黑色素瘤皮肤癌」和「恶性皮肤黑色素瘤」类别来估计所有癌症的健康结果,以及「皮肤和皮下疾病」类别用于所有非癌症条件。

第三步:测量 AI 工具的性能

通过比较 AI 预测的排名病状与评估数据集上的参考诊断(根据年龄、性别、种族/族裔和eFST分层的亚群体)来测量 top-3 agreement 一致性。

第四步:检测 AI 工具在考虑健康差异方面的性能

量化皮肤疾病 AI 工具的 HEAL 指标,具体方法如下:

对每个亚群体 (subpopulations),需要两个输入:预先存在的健康差异的量化度量,以及 AI 工具性能。

计算给定不平等因素(例如种族/族裔)中,所有亚群体之间的健康结果和 AI 性能之间的反相关性 R,R 正值越大,对健康公平的考虑越全面。

将 AI 工具的 HEAL 指标定义为:p(R > 0),通过 9,999 个样本的 R 分布估算出 AI 优先考虑预先存在的健康差异的可能性。HEAL 指标超过 50% 则意味着有更高的可能性实现健康公平;低于 50% 则意味着实现公平性能的可能性较低。

皮肤病 AI 工具测评:某些子群体仍需提高

种族/族裔:HEAL 指标为 80.5%,表明对这些子群体中存在的健康差异有较高的优先级。

性别:HEAL 指标为 92.1%,表明性别在 AI 工具性能考虑健康差异方面有很高的优先级。

年龄:HEAL 指标为 0.0%,表明在不同年龄组中优先考虑健康差异的可能性低。对于癌症条件,HEAL 指标为 73.8%,而非癌症条件的 HEAL 指标为 0.0%。

图片

不同年龄段、是否有癌症群体的 HEAL 指标

研究人员进行了逻辑回归分析,结果表明,年龄和某些皮肤病条件(例如基底细胞癌和鳞状细胞癌)对 AI 性能有显著影响,而对于其他条件(例如囊肿)的表现则不够准确。

此外,研究人员还进行了交叉性分析,通过细分的 GBD 健康结果测量工具,进行了年龄、性别和种族/族裔交叉的扩展 HEAL 分析,整体 HEAL 指标为 17.0%。特别关注在健康结果和 AI 性能两方面排名较低的交叉点,识别了需要提高 AI 工具性能的子群体,其中包括 50 岁以上的西班牙裔女性、50 岁以上的黑人女性、50 岁以上的白人女性、20-49 岁的白人男性以及 50 岁以上的亚太裔男性。

也就是说,提高针对这些群体的 AI 工具性能对于实现健康公平至关重要。

不只是健康公平:AI 公平性的广大蓝图

显而易见,健康不平等现象在不同的种族/族裔、性别和年龄群体中显著存在,尤其是在高科技医疗技术飞速发展之下,健康资源的倾斜甚至有所加剧。在解决相关问题的过程中,AI 任重道远。但值得注意的是,由科技进步所带来的不公平现象其实广泛存在于人们生活的方方面面,如数字鸿沟导致的信息获取、在线教育和数字服务的不平等。

Google AI 负责人、「程序员大神」Jeff Dean 曾表示,Google 对于 AI 公平性非常重视,在数据、算法、传播分析、模型可解释性、文化差异性研究以及大模型隐私保护等方面做了大量工作。例如:

2019 年,谷歌云的负责任 AI 产品审查委员会、谷歌云负责任 AI 交易审查委员会,为避免加重算法不公平或偏见,暂停开发与信贷有关的人工智能产品。2021 年,先进技术审查委员会对涉及大型语言模型的研究进行审查,认为其可以谨慎地继续,但在进行全面的人工智能原则审查之前,此模型不能被正式推出。Google DeepMind 团队曾发布论文,探讨「如何将人类价值观融入 AI 系统」,将哲学思想融入 AI, 帮助其建立社会公平性。

未来,为了保证 AI 技术的公平性, 需要从多个角度进行干预与治理,如:

公平的数据收集与处理: 确保训练数据覆盖多样性,包括不同性别、年龄、种族、文化和社会经济背景的人群。同时,要避免因偏见而导致的数据选择,确保数据集的代表性和平衡性。

消除算法偏见: 在模型设计阶段,要主动识别和消除可能导致不公平结果的算法偏见。这可能涉及到对模型的输入特征进行仔细选择,或者使用特定的技术来减少或消除偏见。

公平性评估: 在模型部署前后,都应进行公平性评估。这包括使用各种公平性度量标准来评估模型对不同群体的影响,并根据评估结果进行必要的调整。

持续监控与迭代改进: AI 系统部署后,应持续监控其在实际环境中的表现,及时发现并解决可能出现的不公平问题。这可能需要定期迭代模型,以适应环境变化和新的社会规范。

随着 AI 技术的发展,相关的伦理准则和法律法规也将得到进一步的完善,让 AI 技术在更加公平的框架内发展。同时将更加注重多样性和包容性。而这就需要在数据收集、算法设计、产品开发等各个环节都考虑到不同群体的需求和特点。

长远来看,AI 改变生活的真谛应该是更好地服务于不同性别、年龄、种族、文化和社会经济背景的人群,减少因技术应用而产生的不公平现象。随着公众认知水平不断提高,是否能够让更多人参与到 AI 发展的规划中,对 AI 技术的发展提出建议,从而确保技术的发展符合社会的整体利益。

AI 技术公平性的广大蓝图需要技术、社会、法律等多个领域的共同努力,不要令先进技术成为「马太效应」的推手。

这篇关于谷歌发布 HEAL 架构,4 步评估医学 AI 工具是否公平的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967520

相关文章

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Java中有什么工具可以进行代码反编译详解

《Java中有什么工具可以进行代码反编译详解》:本文主要介绍Java中有什么工具可以进行代码反编译的相关资,料,包括JD-GUI、CFR、Procyon、Fernflower、Javap、Byte... 目录1.JD-GUI2.CFR3.Procyon Decompiler4.Fernflower5.Jav

使用Python创建一个能够筛选文件的PDF合并工具

《使用Python创建一个能够筛选文件的PDF合并工具》这篇文章主要为大家详细介绍了如何使用Python创建一个能够筛选文件的PDF合并工具,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录背景主要功能全部代码代码解析1. 初始化 wx.Frame 窗口2. 创建工具栏3. 创建布局和界面控件4

Docker部署Jenkins持续集成(CI)工具的实现

《Docker部署Jenkins持续集成(CI)工具的实现》Jenkins是一个流行的开源自动化工具,广泛应用于持续集成(CI)和持续交付(CD)的环境中,本文介绍了使用Docker部署Jenkins... 目录前言一、准备工作二、设置变量和目录结构三、配置 docker 权限和网络四、启动 Jenkins

MobaXterm远程登录工具功能与应用小结

《MobaXterm远程登录工具功能与应用小结》MobaXterm是一款功能强大的远程终端软件,主要支持SSH登录,拥有多种远程协议,实现跨平台访问,它包括多会话管理、本地命令行执行、图形化界面集成和... 目录1. 远程终端软件概述1.1 远程终端软件的定义与用途1.2 远程终端软件的关键特性2. 支持的

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

Java判断多个时间段是否重合的方法小结

《Java判断多个时间段是否重合的方法小结》这篇文章主要为大家详细介绍了Java中判断多个时间段是否重合的方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录判断多个时间段是否有间隔判断时间段集合是否与某时间段重合判断多个时间段是否有间隔实体类内容public class D

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll