DAST: Unsupervised Domain Adaptation in Semantic Segmentation Based onDiscriminator Attention

本文主要是介绍DAST: Unsupervised Domain Adaptation in Semantic Segmentation Based onDiscriminator Attention,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

发表于AAAI2021 翻译版

1.摘要

2.引言

3.相关工作

4.方法

损失函数:

注意机制设计:

5.训练结果

6.结论


发表于AAAI2021 翻译版

太长不看版本:

http://t.csdn.cn/WA65L

1.摘要

在本文中,我们顺应趋势提出了一种新的方法,利用鉴别器注意和自我训练策略来减少域偏移。鉴别器注意策略包含两个阶段的对抗性学习过程,它明确区分对齐良好(领域不变)和对齐不良(领域特定)特征,并引导模型关注后者。自训练策略自适应地改进了模型针对目标域的决策边界,隐式地促进了域不变特征的提取。通过结合两种策略,我们找到了一种更有效的方法来减少域移。大量的实验证明了该方法在众多基准数据集上的有效性。

2.引言

使用UDA方法进行语义分割的关键部分是对齐来自不同领域的特征(Chen et al. 2019;Hoffman等人,2018;Tsai等,2018;Vu et al. 2019)。虽然其主要思想很简单——匹配源和目标域的整体特征级分布,但实现的难度因适应图像中不同区域的特征而异。例如天空比建筑、交通灯和人行道更容易适应,因为天空的区域无论从图像上看都是相似的,而后者的特征是不同的建筑风格或交通规则。(Luo et al. 2019b)认为,对源域和目标域进行全局对齐会导致信息负转移,并破坏模型在原本对齐良好的区域的性能。因此,他们建议生成一个局部比对分数图,并允许对具有不同局部比对分数的区域使用不同的权重。

遵循(Luo et al. 2019b)的精神,在这项工作中,我们提出了一种称为鉴别器注意(DA)的策略,以直接评估局部特征是否难以适应。提出的DA学习策略包括发现和纠正两个阶段。在发现阶段,鉴别器网络(也称为发现器,D)对分割网络的中间特征进行对齐,并使用局部对齐的置信度形成一个注意图,对特征图进行重权,用于标签预测。在校正阶段,另一个鉴别器网络(称为corrector, C)根据之前的注意图进一步对齐分割网络的输出。如图1 (b)所示,该模型更关注用于领域对齐的难适应区域。考虑到真实数据(目标域)的分布过于复杂,我们进一步引入自训练策略,以保证模型的决策边界适合于目标域。如图1 (c)所示,经过UDA处理后的分割网络的决策边界仍然倾向于源域数据的分布,但应用自训练策略后,这种趋势得到了纠正。具体来说,我们通过使用先前预测生成的伪标签训练分割网络,自适应地改进模型的决策边界。

 贡献点:

(1)我们提出了一种新型的两阶段对抗学习(DA),利用注意机制为难以适应的区域赋予更高的权重,并同时对齐特征空间和输出空间。

(2)我们的方法是对现有领域适应技术的补充,如自我训练。

(3)我们的方法在SYNTHIA (Ros等人2016年)/GTA5 (Richter等人2016年)数据集到真实数据集Cityscapes (Cordts等人2016年)的适应性上取得了卓越的性能。

3.相关工作

略。

4.方法

在这项工作中,我们专注于语义分割的无监督域适应问题,我们可以访问有标记的源数据集{xs, ys}和无标记的目标数据集{xt}。如图2所示,整个网络架构主要由一个分割网络(segmentor S)和两个鉴别器网络(discoverer D和corrector C)组成。segmentor S的网络骨干可以是任何用于语义分割的全卷积网络。为了更好的描述和讨论,S分为特征提取器E和标签预测器P,其中S = E◦P。discriminator (D和C)是基于cnn的分类器,具有完全卷积输出,可以为所有输出位置提供置信度得分,以评估不同域的局部对齐。

在源流中,E从源域图像xs中提取一个特征映射fs,其中fs = E(xs)。然后,预测器P将fs作为输入,形成像素级语义分割ps,其中ps = P (fs),它将在源标签ys的监督下用于计算分割损失Lseg。另一方面,fs和ps将分别输入到特征级和输出级对抗学习的发现器D和校正器C中。

在目标流中,对于给定的图像xt, E输出一个feature map ft,它首先输入到发现器D。通过优化对抗性损失LDadv, D对齐ft和fs的特征分布,并提供ft中每个位置对齐的置信度得分,形成注意图α,其中α = |(D(ft)|。α将ft重新加权到一个新的特征映射ˆft = α(ft),它被输入到P以产生像素级的预测pt,更关注对齐不好的区域,其中pt = P(ˆft)。然后引入校正器C在pt和ps之间进行对抗性学习。为了进一步增强差对齐区域的适应性,我们使用注意图α对对抗性损失LCadv进行重新加权。

此外,我们采用一种自训练策略来改进分割模型的决策边界。类似于(Li, Y yuan, and V asconcelos 2019),我们引入了像素部分的超级参数q。我们利用pt中像素的顶部q值生成概率值较高的伪标签ˆpt,并屏蔽掉其他不参与梯度反向传播的像素。

算法1总结了该方法的训练过程。在实践中,我们将初始q设为50%,自训练的最大迭代K设为3(性能收敛)

损失函数:

整体损失函数主要由四个损失项组成:

 第二项和第三项分别是发现者D和纠正者C的对抗性损失。在LSGAN之后(Mao et al. 2017),我们使用最小二乘损失来取代GAN中的sigmoid交叉熵,因为基于sigmoid的损失通常在鉴别器达到最优时停止更新(Hong et al. 2019)。LDadv(E, D)和LCadv(E, P, C)分别对应鉴别器注意模块中的两阶段对抗性学习。

在第一阶段,E提取的域不变特征会迷惑发现者D,目的是通过交替优化D和E来最小化损失LDadv(E, D)。

 优化D后,对于给定的目标图像xt,生成区分易适应区域和难适应区域的注意图,α = |D(ft)|。在第二阶段,我们预计P◦E输出分割预测,能够混淆C。

 第四个损失项与自我训练策略有关,它自适应地改善分段器S (S = P◦E)的决策边界,以适应目标分布。

 在整体损失中,λd、λc、μ是用来平衡各项相对重要性的超参数。在训练时,我们设置λd = 0.01, λc = 0.01,µ= 1。

注意机制设计:

 对于目标图像特征ft,发现器α = |D(ft)|的置信度得分显示ft是否局部匹配fs的分布。低αij表示xt中对齐良好的区域,高αij表示对齐不良的区域。因此,我们使用α作为ft的注意图,以鼓励模型专注于那些对齐较差区域的特征匹配。此外,为了防止实验初期的梯度爆炸,我们在α中加入tanh活化作为归一化层。最后,我们展开tanh(α)来拟合ft的维数,用于后续的元素乘法:

 

 由于tanh(α)的大小小于1,其梯度可能会在训练过程的后期消失。因此,我们采用剩余注意机制(Wang et al. 2017)来计算新的特征图。

5.训练结果

 我们采用了DeepLab (Chen et al. 2017)框架,其中VGG16 (Simonyan和Zisserman 2014)和ResNet-101(He et al. 2016)骨干网作为我们的分割网络。在ImageNet上预训练初始权重(Deng et al. 2009)。在最后一层卷积之后,应用Atrous空间金字塔池(ASPP)模块,采样率为{6,12,18,24}。最后,我们利用上采样层来重新缩放最终分割输出,以匹配输入图像的尺寸。鉴别器(发现器D和校正器C)是保留空间信息的完全卷积网络。D由4个卷积层组成,通道号为{256,128,64,1},kernel size为3,padding size为1,stride为1。C对齐不同域的语义预测。随后(Tsai et al. 2018),它由5个卷积层组成,内核大小、填充大小和步长分别为4、1、2,通道号为{64、128、256、512、1}。与常规的ReLU不同,C使用Leaky ReLU作为激活,其负斜率固定为0.2。

GTA5->CITYSCAPES

 SYNTHIA->CITYSCAPES

 之前的大多数研究都存在模型偏差和估计过于乐观的问题,因为它们通常会从Cityscapes值集中所有中间快照的评估中选择最好的结果。为了解决过度乐观的问题,我们通过(Y ang和Soatto 2020)的方法,随机选取500张转换为cityscape风格的GTA5图像,建立一个合成值集。模型在合成val集合上的性能可以指导最佳快照的选择和何时开始自我训练。我们使用两种样式的平均值(β = 0.5和β = 0.9)作为合成val集的最终结果。如图4所示,合成的值集可以近似地适合Cityscapes VAL集。

6.结论

本文提出了一种将识别器注意力与自训练相结合的新方法,实现了无监督域自适应语义分割。鉴别器注意模块包括对抗性学习的两个阶段,利用注意图为硬适应区域赋予更高的权重,并在不同区域之间进行特征级和输出级比对。自训练模块动态生成伪标签,使分割网络的决策边界适应未标记目标图像的分布。实验结果和定性实例证明,我们的方法在基准数据集上的性能优于现有的先进方法。

这篇关于DAST: Unsupervised Domain Adaptation in Semantic Segmentation Based onDiscriminator Attention的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/262412

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址:[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录 一、MACS bdgdiff 简介DESCRIPTION 二、用法

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积

Android Studio打开Modem模块出现:The project ‘***‘ is not a Gradle-based project

花了挺长时间处理该问题,特记录如下:1.背景: 在Android studio 下导入一个新增的modem模块,如MPSS.DE.3.1.1\modem_proc\AAA, 目的是看代码方便一些,可以自由搜索各种关键字。但导入该项目时出现了如下错误: The project '***' is not a Gradle-based project.造成的问题: (1) project 下没有代码,而

GCDAsyncUdpSocket 使用时出现错误 Domain=NSPOSIXErrorDomain Code=13 Permission denied

完整的错误描述为: Domain=NSPOSIXErrorDomain Code=13 "Permission denied" UserInfo={NSLocalizedDescription=Permission denied, NSLocalizedFailureReason=Error in send() function.} 原始代码是这样的: clientBroadcast

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

基于 BiLSTM+Attention 实现降雨预测多变量时序分类——明日是否降雨

前言 系列专栏:【深度学习:算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。 降雨预测作为气象学和水文学领域的重要研究课题,‌对于农业、‌城市规划、