扩散视觉反事实算法 DVC:对抗性鲁棒分类器 + 扩散模型,跨模态对比原始的 fundus 图 VS 生成的 OCT 图

本文主要是介绍扩散视觉反事实算法 DVC:对抗性鲁棒分类器 + 扩散模型,跨模态对比原始的 fundus 图 VS 生成的 OCT 图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

对抗性鲁棒分类器 + 扩散模型:为 正常的 fundus 和 OCT 图,生成更多病症图

    • 解决问题
      • 创新点
    • 效果
    • 调参技巧
    • 总结
      • Fundus 转 OCT(只是猜想,不一定)
        • 1. 疾病特征模拟
        • 2. 数据增强
        • 3. 疾病进展模拟
        • 4. 跨模态学习

 


解决问题

论文:https://arxiv.org/pdf/2311.11629.pdf

代码:https://github.com/berenslab/retinal_image_counterfactuals

  • 裁剪眼底图:https://github.com/berenslab/fundus_circle_cropping

 
问题: 如何生成视网膜底片和OCT扫描图像的病症图?

解法: 使用基于扩散模型和对抗性鲁棒分类器的反事实图像生成方法(DVC),生成具有或没有特定疾病标记的视网膜图像。

假设有一张健康人的视网膜底片,我们想知道如果这个人患有糖尿病视网膜病变(DR),他的视网膜底片可能会是什么样子。

  1. 输入: 真实的健康人视网膜底片,或OCT(光学相干断层扫描)图像。
  2. 处理: 使用对抗性鲁棒分类器确定糖尿病视网膜病变的特征,并使用扩散模型根据这些特征生成图像。
  3. 输出: 展示了如果患者患有某种眼科疾病(例如糖尿病视网膜病变或黄斑变性)时,其视网膜图像可能呈现的样子。

通过这种方法,医生可以更好地理解不同疾病状态下的视网膜变化,帮助诊断和治疗计划的制定。

 

a. 原始的视网膜底片图像显示在计算机屏幕上。

b. 两种类型的反事实图像:

  • 一种是标记为“健康”的,意味着疾病特征被移除;
  • 另一种是标记为“DR”(糖尿病视网膜病变)的,意味着疾病特征被增强或添加。

c. 展示了扩散过程的视觉化,从原始图像(\x_0)开始,通过逐步增加噪声(\x_1, x_2, …),直到达到一个完全随机的噪声状态(x_T)。

  • 然后,展示了逆向扩散过程,从噪声状态( x T / 2 x_{T/2} xT/2)开始,逐步减少噪声,直到恢复为一个清晰的反事实图像(x_T)。

  • 上半部分描绘了一个健康眼底图像的正向和逆向扩散,而下半部分则是DR眼底图像的扩散过程。

d. 示意图显示了如何使用扩散模型和对抗性鲁棒分类器生成反事实图像。

  • 左侧是扩散过程的起始图像,然后是中间几个扩散步骤的示例,最右侧是经过半个扩散周期后的图像。
  • 这个过程涉及利用来自对抗性鲁棒分类器的梯度来指导逆向扩散过程,生成反映特定病理特征的图像。

图中还包含了一个小框图,解释了如何将对抗性鲁棒分类器的梯度(标记为R,棕色)投影到围绕简单模型梯度(标记为P,浅橙色)的一个锥形区域中,以引导图像生成过程。

 

创新点

扩散模型

  • 特征: 扩散模型通过在前向过程中向图像加入噪声,并在逆向过程中逐步去除这些噪声,生成高质量、现实感强的图像。

假设我们有一张健康人的眼底图像,我们想要生成这个人如果患有糖尿病视网膜病变(DR)的图像。

扩散模型首先在原始健康图像上加入噪声,使其变得模糊不清。

然后,在逆向过程中,模型逐渐去除噪声并引入糖尿病视网膜病变的特征,如微血管异常和出血点,最终生成一张逼真的、展现疾病特征的反事实图像。

 
对抗性鲁棒分类器

  • 特征: 对抗性鲁棒分类器经过训练,能够抵抗对抗性攻击,并产生与特定类别特征对齐的强大梯度,有助于引导扩散模型生成具有目标类别特征的图像。

设想一个任务,其中需要将健康眼底图像转换成显示糖尿病视网膜病变特征的图像。

对抗性鲁棒分类器能识别出,健康眼底图像中应该如何修改以展现糖尿病视网膜病变的特征,例如在哪些区域增加出血点或微血管异常。

这些针对性的梯度信息被用来指导扩散模型,在逆向过程中准确地引入这些病变特征。

 
结合扩散模型和对抗性鲁棒分类器

  • 方法: 结合扩散模型的图像生成能力和对抗性鲁棒分类器的特征引导能力,创建既现实又准确的反事实图像。

假设一个研究项目旨在生成展现糖尿病视网膜病变进展的图像序列。

研究者首先使用对抗性鲁棒分类器确定哪些特征是糖尿病视网膜病变的关键指标,如血管异常的程度和出血点的分布。

然后,他们使用扩散模型,根据这些指标从健康眼底图像,生成一系列反映病变进展的图像。

这个过程结合了两种技术:对抗性鲁棒分类器提供了对疾病特征的深刻洞察,而扩散模型则负责生成逼真的图像。

不仅能生成逼真的图像,还能在图像中引入或去除特定的疾病特征。

 

效果


直接上结论,表明 DVC 技术能够生成比SVC技术更逼真的图像,更好地移除或引入与疾病相关的特征,而不会产生不自然的伪影

直接上结论。从这张图可以看出,对抗性鲁棒模型和锥投影模型生成的反事实图像在视觉上更加逼真,并且能够引入更明显的疾病相关变化,与普通模型相比,它们在模拟糖尿病视网膜病变方面更为有效


图中展示了光学相干断层扫描(OCT)图像,其中包含了一系列使用扩散视觉反事实(DVCs)技术生成的图像。

这些图像展示了当健康眼底图像被转换为具有某种疾病特征的图像,以及当有疾病特征的图像被转换回健康状态时的变化。

箭头指向了在图像生成过程中添加或移除的特定特征,蓝色箭头指示添加的特征,绿色箭头指示移除的特征。

这些图像证明了DVC技术能够在OCT图像上准确地模拟出疾病的特定视网膜变化,这对于疾病诊断和治疗规划具有潜在的价值。

调参技巧

正则化参数 λ 的不同值影响了生成图像的真实性和病变特征的准确性。

一般来说,中等正则化强度(如 λ = 0.5)可能提供了最佳平衡,既保留了健康图像的结构,又能添加足够的病变特征以改变分类器的决策。

调参:

  1. 疾病的严重程度:

    • 对于轻微的病变,可能需要较小的正则化参数(高λ值),以便生成图像的变化更为微妙。
    • 对于严重的病变,可能需要较大的正则化参数(低λ值),以生成更显著的病变特征。
  2. 保持原始图像结构:

    • 需要一个平衡的正则化参数(中等λ值),以保持原始图像结构的同时引入或去除特定病变特征。
  3. 生成图像的现实性:

    • 正则化参数应该调整到足以生成现实且准确反映病变特征的图像,但又不会引入不自然的伪影。
  4. 分类器的决策改变:

    • 参数调整应该确保生成的图像能够改变分类器的决策,从健康到疾病状态或反之。
       

总结

问题: 如何生成视网膜底片和OCT图像的现实反事实图像?

解法: 使用 扩散模型 结合 对抗性鲁棒分类器 生成。

  • 为什么使用扩散模型: 扩散模型能够生成高质量、现实感强的图像,适用于处理复杂的医学影像数据。

  • 为什么使用对抗性鲁棒分类器: 这些分类器通过对抗性攻击的训练,能产生与特定类别特征对齐的强大梯度,有助于引导扩散模型生成具有目标类别特征的图像。

特征组成:

  1. 高质量图像生成: 扩散模型提供了生成逼真图像的能力。
  2. 现实感强的视觉输出: 扩散模型在去除加入的噪声的过程中维持图像的现实感。
  3. 疾病特征的准确描绘: 对抗性鲁棒分类器确保生成图像中包含准确的疾病特征。
  4. 图像数据预处理: 对原始视网膜图像进行标准化裁剪,确保输入数据的一致性。
  5. 数据增强: 使用额外的数据集加强模型对疾病样本的学习。

 

Fundus 转 OCT(只是猜想,不一定)

1. 疾病特征模拟

示例: 模拟糖尿病视网膜病变在OCT图像中的表现。

初始步骤是选取健康的fundus图像。

使用扩散模型,逐步引入与糖尿病视网膜病变相关的特征,如视网膜层的增厚或微血管异常。

这个过程中,对抗性鲁棒分类器帮助模型识别和模拟OCT图像中这些特征应该如何展现。

最终生成的图像展现了假设情况下的病变特征,供医生分析和学习。

2. 数据增强

示例: 为OCT图像数据集添加更多样化的病变样本。

在OCT图像数据稀缺的情况下,从已有的fundus图像出发,

利用扩散模型生成不同阶段和类型的视网膜病变OCT图像。

这些生成的图像被加入到现有的数据集中,提高了数据集的多样性和丰富性,有助于提升后续模型训练的质量和效果。

3. 疾病进展模拟

示例: 预测视网膜疾病在OCT图像上的进展。

选取初始阶段的糖尿病视网膜病变 fundus 图像,运用扩散模型逐步展现疾病从初期到晚期在 OCT 图像上的变化。

模型通过对抗性鲁棒分类器的引导,模拟出疾病的各个阶段特征,如视网膜液体积聚或层次结构改变,生成一系列图像来展示疾病的预期进展路径。

4. 跨模态学习

示例: 理解 fundus 和 OCT 图像在视网膜疾病表现上的关联。

分析在 fundus 图像上表现出的特定视网膜疾病特征,如血管异常,并使用扩散模型在 OCT 图像上模拟相应的变化,如视网膜层次的改变。

结合对抗性鲁棒分类器和扩散模型的步骤:

  1. 数据收集和准备:

    • 收集 fundus 和 OCT 图像的数据集。
    • 对两种图像进行预处理以保证输入数据的一致性和质量。
  2. 特征识别与标注:

    • 使用对抗性鲁棒分类器分析 fundus 图像,标注出病变特征,如血管异常等。
    • 对OCT图像执行同样的过程,标注出疾病相关的变化,如视网膜层次结构的改变。
  3. 使用扩散模型进行图像生成:

    • 训练扩散模型,使其学会从一个模态(如fundus)到另一个模态(如OCT)的特征转换。
    • 在训练扩散模型时,可以使用对抗性鲁棒分类器提供的梯度信息来指导图像生成过程。
    • 这样,扩散模型不仅学会了从一种模态转换到另一种模态的特征,而且这些特征的表现会更加精确,更接近真实病变的表现。
  4. 跨模态对比分析:

    • 生成的 OCT 图像与原始的 fundus 图像进行对比,验证病变特征是否准确转换。
    • 对抗性鲁棒分类器可以再次用于验证生成的图像是否保持了与原始病变相同的分类信心度。
  5. 专家验证:

    • 眼科专家参与评估AI生成的 OCT 图像的准确性,确保其临床可用性。
    • 在这个过程中,对抗性鲁棒分类器的主要作用是提供关于病变特征的精确信息,帮助扩散模型理解在 fundus 图像上标注的病变特征应如何在 OCT 图像上呈现。
    • 而扩散模型的作用是利用这些信息生成具有对应病变特征的 OCT 图像。

这篇关于扩散视觉反事实算法 DVC:对抗性鲁棒分类器 + 扩散模型,跨模态对比原始的 fundus 图 VS 生成的 OCT 图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/650714

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了