Cross-Modal Alignment

2024-08-27 06:48
文章标签 alignment modal cross

本文主要是介绍Cross-Modal Alignment,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Cross-Modal Alignment 论文阅读


原文:Zhu Y , Xu Y , Ni B , et al. Enhancing pulmonary nodule detection via cross-modal alignment[C]// Visual Communications & Image Processing. IEEE, 2018.


简介

问题

  • 在肺结节检测中,医学影像标注数据稀少。
  • 由于成像设备间的差异造成数据间存在差异性。

创新点

本文提出一种跨模态方案,通过模态对齐实现通道聚合检测。

  • Cycle-GAN:用于迁移结节形态学特征,即合成结节图像;
  • 目标函数:用于评估Cycle-GAN和结节检测的性能;
  • 融合方法:用于结节分类。

主要内容

  • 通道聚合检测器
  • Cycle-GAN
  • 结节评估

结节检测

  1. 将范围为-1400200的HU值图像转换为0255的灰度图;
  2. 采用HOG在六个方向上提取图像特征;
  3. 聚合所有特征通道构建结节检测器;
  4. 根据置信度评估候选结节。

假阳性率偏高。作者使用了两部分数据集,LUNA16数据集和ChestHosp(上海市胸科医院)数据集。两者由于成像设备原因存在数据差异性,严重影响了结节检测的精度。

跨模态对齐

在Cycle-GAN模型中只用于合成结节图像,因此作者认为数据差异性造成的影响可忽略。

  • source model A
  • target model B
  • negative model C
目标函数
  • 映射关系:

    • G : A → B G: A \to B G:AB
    • G i : B → A G_i: B \to A Gi:BA
  • 辨别器: D A , D B , D D_A, D_B, D DA,DB,D

对抗损失(Adversarial loss)
  • L G A N ( G i , D B , A , B ) \mathcal{L}_{GAN}(G_i,D_B, A, B) LGAN(Gi,DB,A,B)
  • L G A N ( G i , D A , B , A ) \mathcal{L}_{GAN}(G_i,D_A, B, A) LGAN(Gi,DA,B,A)

D A D_A DA D A D_A DA输出数据来自A而不是B的概率。
D B D_B DB D B D_B DB输出数据来自B而不是A的概率。

循环一致性损失(Cycle consistency loss)

Because the mapping is highly under-constrained, a network can map the same set of source images to any permutation of images in the target modal.

为了减少映射空间,引入循环一致性(Cycle-Consistency)。

L c y c ( G , G i ) = E a ∼ A [ ∥ G i ( G ( a ) ) − a ∥ 1 ] + E b ∼ B [ ∥ G ( G i ( b ) ) − b ∥ 1 ] \mathcal{L}_{cyc}(G, G_i) =\mathbb{E}_{a \sim A}\left[\|G_i(G(a))-a\|_{1}\right] +\mathbb{E}_{b \sim B}\left[\|G(G_i(b))-b\|_{1}\right] Lcyc(G,Gi)=EaA[Gi(G(a))a1]+EbB[G(Gi(b))b1]

其中, ∥ ⋅ ∥ 1 \|\cdot\|_1 1表示 L 1 L1 L1正则。

辅助损失(Auxiliary loss)
  1. G的输出结果可能偏离理论数据的分布;
  2. G的输出结果中的非结节数据难以与结节数据区分。

以上两点易将结节图像迁移至数据集C,因此引入一个辅助辨别器D,用于区分数据属于B还是C。

L aux ( G , D ) = E b ∼ B [ log ⁡ ( 1 − D ( b ) ) ] + E c ∼ C [ log ⁡ D ( c ) ] + λ 1 E a ∼ A [ log ⁡ ( 1 − D ( G ( a ) ) ) ] \begin{aligned} \mathcal{L}_{\text {aux}}(G, D) =\mathbb{E}_{b \sim B}[\log (1-D(b))]+\mathbb{E}_{c \sim C}[\log D(c)] +\lambda_{1} \mathbb{E}_{a \sim A}[\log (1-D(G(a)))] \end{aligned} Laux(G,D)=EbB[log(1D(b))]+EcC[logD(c)]+λ1EaA[log(1D(G(a)))]

总损失

G ∗ , D ∗ = arg ⁡ min ⁡ G , G i , D max ⁡ D A , D B L ( G , G i , D , D A , D B ) = arg ⁡ min ⁡ G , G i , D max ⁡ D A , D B [ L G A N ( G , D B , A , B ) + L G A N ( G i , D A , B , A ) + L a u x ( G , D ) + λ 2 L c y c ( G , G i ) ] \begin{aligned} G^{*}, D^{*}&=\arg \min _{G, G_i, D} \max _{D_{A}, D_{B}} \mathcal{L}\left(G, G_i, D, D_{A}, D_{B}\right) \\ &=\arg \min _{G, G_i, D} \max _{D_{A}, D_{B}} [\mathcal{L}_{GAN}\left(G, D_{B}, A, B\right) +\mathcal{L}_{GAN}\left(G_i, D_{A}, B, A\right) +\mathcal{L}_{aux}(G, D)+\lambda_{2} \mathcal{L}_{cyc}(G, G_i)] \end{aligned} G,D=argG,Gi,DminDA,DBmaxL(G,Gi,D,DA,DB)=argG,Gi,DminDA,DBmax[LGAN(G,DB,A,B)+LGAN(Gi,DA,B,A)+Laux(G,D)+λ2Lcyc(G,Gi)]

融合阶段

降低假阳性率,重用辅助辨别器D用于评估候选结节。

  • single vote: D的输出概率
  • weight vote: s = s 2 ⋅ e x p ( s 1 ) s=s_2 \cdot exp(s_1) s=s2exp(s1),其中 s 2 s_2 s2为原始得分
  • bias vote: s = s 2 + λ ⋅ e x p ( s 1 ) s=s_2 + \lambda \cdot exp(s_1) s=s2+λexp(s1)

这篇关于Cross-Modal Alignment的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110937

相关文章

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

VSCode中latex文件(Misplaced alignment tab character .LaTeX

Misplaced alignment tab character &.LaTeX 先给出参考文章1 Misplaced alignment tab character &.LaTeX 把bib文件中的 &改为 and 。删除原有的bbl文件、重新运行 选择这个运行 这个错误在overleaf上并没有遇到、在vscode上遇到了 方法二就是把 &改为 \& ,记得删除

Anchor Alignment Metric来优化目标检测的标签分配和损失函数。

文章目录 背景假设情况任务和目标TaskAligned方法的应用1. **计算Anchor Alignment Metric**2. **动态样本分配**3. **调整损失函数** 示例总结 背景 假设我们在进行目标检测任务,并且使用了YOLOv8模型。我们希望通过TaskAligned方法来优化Anchor与目标的匹配程度,从而提升检测效果。 假设情况 图像: 一张包含

经验笔记:跨站脚本攻击(Cross-Site Scripting,简称XSS)

跨站脚本攻击(Cross-Site Scripting,简称XSS)经验笔记 跨站脚本攻击(XSS:Cross-Site Scripting)是一种常见的Web应用程序安全漏洞,它允许攻击者将恶意脚本注入到看起来来自可信网站的网页上。当其他用户浏览该页面时,嵌入的脚本就会被执行,从而可能对用户的数据安全构成威胁。XSS攻击通常发生在Web应用程序未能充分过滤用户提交的数据时,导致恶意脚本得以传递

MaPLe(论文解读): Multi-modal Prompt Learning

Comment: Accepted at CVPR2023 摘要 预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。 受到NLP领域的启发,最近的CLIP的自适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支(语言或图像分支)中

[论文解读]Genre Separation Network with Adversarial Training for Cross-genre Relation Extraction

论文地址:https://www.aclweb.org/anthology/D18-1125.pdf发表会议:EMNLP2019 本论文的主要任务是跨领域的关系抽取,具体来说,利用某个领域的数据训练好的关系抽取模型,很难去直接抽取另一个领域中的关系,比如我们拿某个领域训练好的模型,把另一个领域的数据直接输入整个模型,很难抽取出来正确的实体关系。这主要是因为源领域和目标领域特征表达的不同,在源

cross join lateral 表连接

1. 概述 在 PostgreSQL 中,表连接是查询构建的核心。通过连接,可以将多张表的数据组合在一起,以生成所需的结果。 2. 什么是 CROSS JOIN LATERAL? CROSS JOIN LATERAL 是 PostgreSQL 中一个非常强大的功能,它允许对左表的每一行执行右侧的子查询或表达式。不同于普通的 JOIN 操作,CROSS JOIN LATERAL 允许右侧的子查

解决Node.js调用fs.renameSync报错的问题(Error: EXDEV, cross-device link not permitted)

在写一个文件上传的功能时候,调用fs.renameSync方法错误 出错 代码所在如下: 1 function upload(response,request){ 2 console.log("upload called"); 3 var form = new formidable.IncomingForm(); 4 console.log("about t

【论文】A Collaborative Transfer Learning Framework for Cross-domain Recommendation

Intro 业界常见的跨域建模方案主要分为两种范式[22][32][5][36][17][14][20]:1) 将源样本和目标样本进行联合和混合,然后执行多任务学习技术,以提高在所有域中的性能;2) 使用混合或数据丰富的源域数据预先训练模型,然后在数据不足的目标域中对其进行微调,以适应新的数据分布。在第一种方法中,通过不同类型的网络设计来学习特定域特征和域不变特征,其中域指标通常用于识别域。在微

[深度学习]交叉熵(Cross Entropy)算法实现及应用

写在前面:要学习深度学习,就不可避免要学习Tensorflow框架。初了解Tensorflow的基础知识,看到众多API,觉得无从下手。但是到了阅读完整项目代码的阶段,通过一个完整的项目逻辑,就会让我们看到的不只是API,而是API背后,与理论研究相对应的道理。除了Tensorflow中文社区的教程,最近一周主要在阅读DCGAN的代码(Github:https://github.com/carpe