谷歌发布 HEAL 架构,4 步评估医学 AI 工具是否公平

2024-05-07 13:44

本文主要是介绍谷歌发布 HEAL 架构,4 步评估医学 AI 工具是否公平,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果把维持健康状态想象成一场赛跑,并不是所有人都能够站在统一起跑线上,有的人能够平稳的跑完全程,有的人即使跌倒也能够在第一时间获得帮助,但是有些人可能因为经济条件、居住地、教育水平、种族或其他因素而面临更多障碍。

「健康公平」意味着每个人都应该获得平等的健康医疗资源,才能够更加从容地完成这场赛跑,达到最佳的健康状态。 部分群体(如少数族裔、低社会经济地位人群或医疗保健获取能力有限的个体)在疾病预防、诊断和治疗方面受到不公平对待,会极大地影响其生活质量和生存机会。毫无疑问,提高对「健康公平」的关注度应该在全球范围在成为共识,从而进一步解决导致不平等的根本原因。

如今,虽然机器学习、深度学习等已经在医疗健康领域「有所建树」,甚至已经走出实验室、走向临床一线。感叹于 AI 的强大能力时,人们更应该关注,这一类新兴技术的落地应用,是否会加剧健康资源不平等现象呢?

图片

健康公平评估示意图

  • 浅蓝色条表示预先存在的健康结果

  • 深蓝色条形图说明了干预措施对预先存在的健康结果的影响

为此,Google 团队开发了 HEAL (The health equity framework) 框架,能够定量评估基于机器学习的医疗健康方案是否「公平」。 通过这种方法,研究团队试图确保新兴的健康技术能够有效地减少健康不平等,而不是无意中加剧这些不平等。

HEAL 架构:4 步评估皮肤科 AI 工具公平性

HEAL 框架包含 4 个步骤:

  1. 确定与卫生健康不公平有关的因素,并定义 AI 工具性能指标

  2. 明确并量化先前存在的健康差异 (disparities)

  3. AI 工具性能测试

  4. 衡量 AI 工具优先考虑健康公平差距的可能性

图片

HEAL 架构,以皮肤科疾病诊疗 AI 工具为例

第一步:确定皮肤科中与健康不公平有关的因素,明确评估 AI 工具性能的指标

研究人员通过查阅文献并综合考虑数据可用性,选定以下因素——年龄、性别、种族/族裔和 Fitzpatrick skin type (FST)。

FST 是根据人体皮肤对紫外线 (UV) 辐射、特别是晒伤和晒黑的反应,对皮肤进行分类的系统。范围从 FST I 到 FST VI,每种类型代表皮肤、眼睛和头发黑色素生成的不同水平,以及对紫外线的敏感度。

此外,研究人员选择 top-3 agreement 作为评估 AI 工具性能的指标,其定义是,AI 建议的前 3 项条件中至少有一项与皮肤科专家小组的参考诊断相匹配的病例比例。

第二步:确定皮肤科现存的「健康差异」

健康差异指标是用来量化、描述不同群体之间的健康状态不平等的具体量度。这些群体根据种族、经济状况、地理位置、性别、年龄、残疾状况或其他社会决定因素进行区分。

以下是一些常见的健康差异指标:

失能调整生命年 (disability-adjusted life years, DALYs) :反映由于疾病、伤残或早逝造成的健康生命损失年数。DALY 是一种综合指标,是寿命损失年数 (years of potential life lost, YLLs) 和带疾病生活的年数 (years lived with disability, YLDs) 的加总。

生命损失年数(YLLs) :由于早逝而损失的预期健康年数。

同时,研究人员还对皮肤癌进行了子分析 (sub-analysis),以理解 AI 工具的性能在高风险条件下的变化。研究使用 Global Burden of Disease (GBD) 的「非黑色素瘤皮肤癌」和「恶性皮肤黑色素瘤」类别来估计所有癌症的健康结果,以及「皮肤和皮下疾病」类别用于所有非癌症条件。

第三步:测量 AI 工具的性能

通过比较 AI 预测的排名病状与评估数据集上的参考诊断(根据年龄、性别、种族/族裔和eFST分层的亚群体)来测量 top-3 agreement 一致性。

第四步:检测 AI 工具在考虑健康差异方面的性能

量化皮肤疾病 AI 工具的 HEAL 指标,具体方法如下:

对每个亚群体 (subpopulations),需要两个输入:预先存在的健康差异的量化度量,以及 AI 工具性能。

计算给定不平等因素(例如种族/族裔)中,所有亚群体之间的健康结果和 AI 性能之间的反相关性 R,R 正值越大,对健康公平的考虑越全面。

将 AI 工具的 HEAL 指标定义为:p(R > 0),通过 9,999 个样本的 R 分布估算出 AI 优先考虑预先存在的健康差异的可能性。HEAL 指标超过 50% 则意味着有更高的可能性实现健康公平;低于 50% 则意味着实现公平性能的可能性较低。

皮肤病 AI 工具测评:某些子群体仍需提高

种族/族裔:HEAL 指标为 80.5%,表明对这些子群体中存在的健康差异有较高的优先级。

性别:HEAL 指标为 92.1%,表明性别在 AI 工具性能考虑健康差异方面有很高的优先级。

年龄:HEAL 指标为 0.0%,表明在不同年龄组中优先考虑健康差异的可能性低。对于癌症条件,HEAL 指标为 73.8%,而非癌症条件的 HEAL 指标为 0.0%。

图片

不同年龄段、是否有癌症群体的 HEAL 指标

研究人员进行了逻辑回归分析,结果表明,年龄和某些皮肤病条件(例如基底细胞癌和鳞状细胞癌)对 AI 性能有显著影响,而对于其他条件(例如囊肿)的表现则不够准确。

此外,研究人员还进行了交叉性分析,通过细分的 GBD 健康结果测量工具,进行了年龄、性别和种族/族裔交叉的扩展 HEAL 分析,整体 HEAL 指标为 17.0%。特别关注在健康结果和 AI 性能两方面排名较低的交叉点,识别了需要提高 AI 工具性能的子群体,其中包括 50 岁以上的西班牙裔女性、50 岁以上的黑人女性、50 岁以上的白人女性、20-49 岁的白人男性以及 50 岁以上的亚太裔男性。

也就是说,提高针对这些群体的 AI 工具性能对于实现健康公平至关重要。

不只是健康公平:AI 公平性的广大蓝图

显而易见,健康不平等现象在不同的种族/族裔、性别和年龄群体中显著存在,尤其是在高科技医疗技术飞速发展之下,健康资源的倾斜甚至有所加剧。在解决相关问题的过程中,AI 任重道远。但值得注意的是,由科技进步所带来的不公平现象其实广泛存在于人们生活的方方面面,如数字鸿沟导致的信息获取、在线教育和数字服务的不平等。

Google AI 负责人、「程序员大神」Jeff Dean 曾表示,Google 对于 AI 公平性非常重视,在数据、算法、传播分析、模型可解释性、文化差异性研究以及大模型隐私保护等方面做了大量工作。例如:

2019 年,谷歌云的负责任 AI 产品审查委员会、谷歌云负责任 AI 交易审查委员会,为避免加重算法不公平或偏见,暂停开发与信贷有关的人工智能产品。2021 年,先进技术审查委员会对涉及大型语言模型的研究进行审查,认为其可以谨慎地继续,但在进行全面的人工智能原则审查之前,此模型不能被正式推出。Google DeepMind 团队曾发布论文,探讨「如何将人类价值观融入 AI 系统」,将哲学思想融入 AI, 帮助其建立社会公平性。

未来,为了保证 AI 技术的公平性, 需要从多个角度进行干预与治理,如:

公平的数据收集与处理: 确保训练数据覆盖多样性,包括不同性别、年龄、种族、文化和社会经济背景的人群。同时,要避免因偏见而导致的数据选择,确保数据集的代表性和平衡性。

消除算法偏见: 在模型设计阶段,要主动识别和消除可能导致不公平结果的算法偏见。这可能涉及到对模型的输入特征进行仔细选择,或者使用特定的技术来减少或消除偏见。

公平性评估: 在模型部署前后,都应进行公平性评估。这包括使用各种公平性度量标准来评估模型对不同群体的影响,并根据评估结果进行必要的调整。

持续监控与迭代改进: AI 系统部署后,应持续监控其在实际环境中的表现,及时发现并解决可能出现的不公平问题。这可能需要定期迭代模型,以适应环境变化和新的社会规范。

随着 AI 技术的发展,相关的伦理准则和法律法规也将得到进一步的完善,让 AI 技术在更加公平的框架内发展。同时将更加注重多样性和包容性。而这就需要在数据收集、算法设计、产品开发等各个环节都考虑到不同群体的需求和特点。

长远来看,AI 改变生活的真谛应该是更好地服务于不同性别、年龄、种族、文化和社会经济背景的人群,减少因技术应用而产生的不公平现象。随着公众认知水平不断提高,是否能够让更多人参与到 AI 发展的规划中,对 AI 技术的发展提出建议,从而确保技术的发展符合社会的整体利益。

AI 技术公平性的广大蓝图需要技术、社会、法律等多个领域的共同努力,不要令先进技术成为「马太效应」的推手。

这篇关于谷歌发布 HEAL 架构,4 步评估医学 AI 工具是否公平的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967520

相关文章

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

《三频BE12000国补到手2549元!ROG魔盒ProWIFI7电竞AI路由器上架》近日,华硕带来了ROG魔盒ProWIFI7电竞AI路由器(ROGSTRIXGR7Pro),目前新... 华硕推出了ROG 魔盒Pro WIFI7电竞AI路由器(ROG STRIX GR7 Phttp://www.cppcn

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

mysql中的服务器架构详解

《mysql中的服务器架构详解》:本文主要介绍mysql中的服务器架构,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、mysql服务器架构解释3、总结1、背景简单理解一下mysqphpl的服务器架构。2、mysjsql服务器架构解释mysql的架

sqlite3 命令行工具使用指南

《sqlite3命令行工具使用指南》本文系统介绍sqlite3CLI的启动、数据库操作、元数据查询、数据导入导出及输出格式化命令,涵盖文件管理、备份恢复、性能统计等实用功能,并说明命令分类、SQL语... 目录一、启动与退出二、数据库与文件操作三、元数据查询四、数据操作与导入导出五、查询输出格式化六、实用功

k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)

《k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)》本文记录在K8s上运行的MySQL/MariaDB备份方案,通过工具容器执行mysqldump,结合定时任务实... 目录前言一、获取需要备份的数据库的信息二、备份步骤1.准备工作(X86)1.准备工作(arm)2.手