【AI视野·今日CV 计算机视觉论文速览第272期】Fri, 20 Oct 2023

本文主要是介绍【AI视野·今日CV 计算机视觉论文速览第272期】Fri, 20 Oct 2023，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 20 Oct 2023
Totally 62 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Putting the Object Back into Video Object Segmentation
Authors Ho Kei Cheng, Seoung Wug Oh, Brian Price, Joon Young Lee, Alexander Schwing
我们提出了 Cutie，一种具有对象级内存读取功能的视频对象分割 VOS 网络，它将内存中的对象表示放回到视频对象分割结果中。最近关于 VOS 的工作采用了自下而上的像素级内存读取，这种读取由于匹配噪声而陷入困境，尤其是在存在干扰因素的情况下，导致更具挑战性的数据性能较低。相比之下，Cutie 通过调整一小组对象查询来执行自上而下的对象级内存读取，以便使用基于查询的对象转换器 qt 进行重构并与自下而上的像素特征迭代交互，因此称为 Cutie 。对象查询充当目标对象的高级摘要，同时保留高分辨率特征图以进行准确分割。与前景背景屏蔽注意力一起，Cutie 干净地将前景对象的语义与背景分开。在具有挑战性的 MOSE 数据集上，Cutie 在运行时间相似的情况下比 XMem 提高了 8.7 J F，在运行速度是 DeAOT 的三倍的情况下比 DeAOT 提高了 4.2 J F。

HumanTOMATO: Text-aligned Whole-body Motion Generation
Authors Shunlin Lu, Ling Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung Yeung Shum
这项工作针对一种新颖的文本驱动的全身运动生成任务，该任务以给定的文本描述作为输入，旨在同时生成高质量、多样化和连贯的面部表情、手势和身体运动。以前关于文本驱动的动作生成任务的工作主要有两个局限性，一是忽略了细粒度的手和面部控制在生动的全身动作生成中的关键作用，二是缺乏文本和动作之间的良好对齐。为了解决这些限制，我们提出了一个文本对齐的全身运动生成框架，名为 HumanTOMATO，这是我们在该研究领域中应用整体运动生成知识的首次尝试。为了解决这一具有挑战性的任务，我们的解决方案包括两个关键设计 1 整体分层 VQ VAE 又名 H 2 VQ 和分层 GPT，用于细粒度身体和手部运动重建和生成，具有两个结构化密码本和 2 预训练的文本运动对齐模型帮助生成的运动明确地与输入文本描述对齐。

On the Hidden Waves of Image
Authors Yinpeng Chen, Dongdong Chen, Xiyang Dai, Mengchen Liu, Lu Yuan, Zicheng Liu, Youzuo Lin
在本文中，我们介绍了一个有趣的现象，即使用一组具有隐藏且可学习速度的单向波动方程成功重建图像。每个单独的图像对应于具有唯一初始条件的解决方案，可以使用视觉编码器（例如，卷积神经网络）从原始图像计算该解决方案。此外，每个图像的解表现出两个值得注意的数学特性：a 它可以分解为相同单向波动方程的特殊解的集合，这些方程是一阶自回归，具有用于自回归的共享系数矩阵，b 是这些系数的乘积矩阵形成一个对角矩阵，以波动方程的速度作为对角元素。我们将这种现象称为隐藏波，因为它揭示了虽然波动方程组和自回归系数矩阵的速度是潜在的，但它们都是可学习的并且在图像之间共享。

FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
Authors Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira, Muhammad Zubair Irshad
在这项工作中，我们解决了 3D 对象识别这一具有挑战性的任务，而不依赖于现实世界的 3D 标记数据。我们的目标是预测单个 RGB D 图像中对象的 3D 形状、大小和 6D 姿态，在类别级别进行操作，并在推理过程中消除对 CAD 模型的需求。虽然现有的自监督方法在这一领域取得了长足的进步，但它们常常因非端到端处理、对不同对象类别的单独模型的依赖以及隐式重建模型训练过程中表面提取缓慢而导致效率低下，从而阻碍了速度以及 3D 识别过程的现实世界适用性。我们提出的方法利用多阶段训练管道，旨在有效地将合成性能转移到现实世界领域。这种方法是通过在合成域训练期间结合 2D 和 3D 监督损失来实现的，然后在两个额外的学习阶段将 2D 监督和 3D 自监督损失结合到现实世界数据上。

Frozen Transformers in Language Models Are Effective Visual Encoder Layers
Authors Ziqi Pang, Ziyang Xie, Yunze Man, Yu Xiong Wang
这篇论文揭示了大型语言模型 LLM，尽管仅基于文本数据进行训练，但在没有语言的情况下对于纯视觉任务来说却是令人惊讶的强大编码器。更有趣的是，这可以通过一种简单但之前被忽视的策略来实现，该策略采用预先训练的 LLM 中的冻结变压器块作为组成编码器层来直接处理视觉标记。我们的工作突破了利用法学硕士执行计算机视觉任务的界限，显着偏离了通常需要具有相关语言提示、输入或输出的多模态视觉语言设置的传统实践。我们证明，我们的方法能够持续增强各种任务的性能，包括纯 2D 和 3D 视觉识别任务（例如图像和点云分类）、时间建模任务（例如动作识别）、非语义任务（例如运动预测）和多模态任务任务，例如 2D 3D 视觉问答和图像文本检索。这种改进是一种普遍现象，适用于各种类型的 LLM，例如 LLaMA 和 OPT 以及不同的 LLM 变压器块。我们还提出了信息过滤假设来解释预训练的 LLM 在视觉编码中的有效性，预训练的 LLM 转换器块可识别信息丰富的视觉标记并进一步放大其效果。这一假设得到了观察的实证支持，即在使用 LLM 变压器块进行训练后，特征激活表现出对相关区域更加关注。我们希望我们的工作能够激发人们利用法学硕士的新视角，并加深我们对其潜在机制的理解。

CLAIR: Evaluating Image Captions with Large Language Models
Authors David Chan, Suzanne Petryk, Joseph E. Gonzalez, Trevor Darrell, John Canny
机器生成的图像描述的评估提出了一个有趣但持续的挑战。有效的评估措施必须考虑相似性的多个维度，包括语义相关性、视觉结构、对象交互、标题多样性和特异性。现有的精心设计的措施试图捕捉特定的方面，但无法提供与人类判断紧密一致的整体分数。在这里，我们提出了 CLAIR，这是一种利用大型语言模型 LLM 的零样本语言建模功能来评估候选字幕的新颖方法。在我们的评估中，与现有的衡量标准相比，CLAIR 表现出与人类对字幕质量的判断有更强的相关性。值得注意的是，在 Flickr8K Expert 上，CLAIR 相对于 SPICE 实现了 39.6 的相对相关性改进，相对于 RefCLIP S 等图像增强方法实现了 18.3 的相对相关性改进。此外，CLAIR 通过允许语言模型识别其分配分数背后的潜在推理来提供嘈杂的可解释结果。

Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
Authors Zhejun Zhang, Alexander Liniger, Christos Sakaridis, Fisher Yu, Luc Van Gool
自动驾驶系统的现实部署需要其组件在车上实时运行，包括预测周围交通参与者未来轨迹的运动预测模块。现有的以代理为中心的方法在公共基准测试中表现出了出色的性能。然而，随着要预测的代理数量的增加，它们面临着计算开销高和可扩展性差的问题。为了解决这个问题，我们引入了具有相对姿势编码 KNARPE 的 K 最近邻注意力机制，这是一种新颖的注意力机制，允许 Transformers 使用成对相对表示。然后，基于 KNARPE，我们提出了具有相对姿势编码 HPTR 的异构折线变换器，这是一个能够在在线推理期间实现异步令牌更新的分层框架。通过在代理之间共享上下文并重用未更改的上下文，我们的方法与以场景为中心的方法一样高效，同时与最先进的以代理为中心的方法性能相当。 Waymo 和 Argoverse 2 数据集上的实验表明，HPTR 在不应用昂贵的后处理或模型集成的端到端方法中实现了卓越的性能。

3D-GPT: Procedural 3D Modeling with Large Language Models
Authors Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould
在追求高效的自动化内容创建的过程中，利用可修改参数和基于规则的系统的程序生成成为一种有前景的方法。尽管如此，鉴于其复杂性，需要深入了解规则、算法和参数，这可能是一项艰巨的任务。为了减少工作量，我们引入了 3D GPT，这是一个利用大型语言模型 LLM 进行指令驱动的 3D 建模的框架。 3D GPT 将法学硕士定位为熟练的问题解决者，将程序性 3D 建模任务分解为可访问的部分，并为每个任务指定合适的代理。 3D GPT 集成了三个核心代理：任务调度代理、概念化代理和建模代理。他们合作实现两个目标。首先，它增强了简洁的初始场景描述，将其演变为详细的形式，同时根据后续指令动态调整文本。其次，它集成了程序生成，从丰富的文本中提取参数值，以便轻松地与 3D 软件连接以创建资产。我们的实证研究证实，3D GPT 不仅可以解释和执行指令，提供可靠的结果，而且还可以与人类设计师有效协作。此外，它与 Blender 无缝集成，释放了扩展的操作可能性。

Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey
Authors Oriane Sim oni, loi Zablocki, Spyros Gidaris, Gilles Puy, Patrick P rez
最近对开放世界视觉系统的热情表明了社区对在迄今为止非常流行的封闭词汇基准设置之外执行感知任务的高度兴趣。能够在不事先知道数据集中包含哪些对象的情况下发现图像视频中的对象是一个令人兴奋的前景。但是如何在不了解任何对象的情况下找到对象最近的工作表明，可以通过利用自监督的预训练特征来执行与类别无关的无监督对象定位。我们在这里提出了一项对无监督对象定位方法的调查，这些方法可以在自监督 ViT 时代发现图像中的对象，而无需任何手动注释。

EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model
Authors Zheyuan Zhang, Lanhong Yao, Bin Wang, Debesh Jha, Elif Keles, Alpay Medetalibeyoglu, Ulas Bagci
大规模、大变体和高质量的数据对于为医疗应用开发强大且成功的深度学习模型至关重要，因为它们有可能实现更好的泛化性能并避免过度拟合。然而，高质量标记数据的稀缺总是带来重大挑战。本文提出了一种新方法来解决这一挑战，即开发用于医学图像合成的可控扩散模型，称为 EMIT Diff。我们利用最新的扩散概率模型来生成真实且多样化的合成医学图像数据，通过结合对象的边缘信息来指导合成过程，从而保留原始医学图像的基本特征。在我们的方法中，我们确保合成的样本遵守医学相关的限制并保留成像数据的基础结构。由于扩散模型的随机采样过程，我们可以生成任意数量的具有不同外观的合成图像。为了验证我们提出的方法的有效性，我们对多个数据集进行了广泛的医学图像分割实验，包括超声乳腺 13.87 、CT 脾脏 0.38 和 MRI 前列腺 7.78 ，与基线分割方法相比取得了显着改进。据我们所知，这些有希望的结果首次证明了我们的 EMIT Diff 对于医学图像分割任务的有效性，并展示了为一般医学图像分割任务引入第一个文本引导扩散模型的可行性。

Neural Degradation Representation Learning for All-In-One Image Restoration
Authors Mingde Yao, Ruikang Xu, Yuanshen Guan, Jie Huang, Zhiwei Xiong
现有方法已证明对单一降解类型具有有效的性能。然而，在实际应用中，退化往往是未知的，模型和退化之间的不匹配将导致性能严重下降。在本文中，我们提出了一种解决多重退化问题的一体化图像恢复网络。由于不同类型退化的异构性，很难在单个网络中处理多种退化。为此，我们建议学习一种神经退化表示 NDR，它可以捕获各种退化的潜在特征。学习到的 NDR 自适应地分解不同类型的退化，类似于表示基本退化成分的神经字典。随后，我们开发了降级查询模块和降级注入模块，以有效地识别和利用基于NDR的特定降级，从而实现多种降级的一站式恢复能力。此外，我们提出了一种双向优化策略，通过交替优化退化和恢复过程来有效驱动 NDR 学习退化表示。

2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision
Authors Cheng Kun Yang, Min Hung Chen, Yung Yu Chuang, Yen Yu Lin
我们提出了一种多模态交错变压器 MIT，它联合考虑 2D 和 3D 数据来进行弱监督点云分割。研究表明，2D 和 3D 特征对于点云分割是互补的。然而，现有方法需要额外的2D注释来实现2D 3D信息融合。考虑到点云的标注成本较高，基于弱监督学习的有效2D和3D特征融合的需求很大。为此，我们提出了一种具有两个编码器和一个解码器的变压器模型，用于仅使用场景级类标签进行弱监督点云分割。具体来说，两个编码器分别计算 3D 点云和 2D 多视图图像的自参与特征。解码器实现隔行扫描2D 3D交叉关注并进行隐式2D和3D特征融合。我们在解码器层中交替切换查询和键值对的角色。事实证明，2D 和 3D 特征是相互迭代丰富的。实验表明，它在 S3DIS 和 ScanNet 基准测试上明显优于现有的弱监督点云分割方法。

Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection
Authors Jiawen Zhu, Choubo Ding, Yu Tian, Guansong Pang
开放集监督异常检测 OSAD 是最近新兴的异常检测领域，旨在利用训练期间看到的异常类的一些样本来检测未见的异常，即来自开放集异常类的样本，同时有效地识别已见的异常。受益于所见异常所说明的先验知识，当前的 OSAD 方法通常可以很大程度上减少误报错误。然而，这些方法将异常示例视为来自均匀分布，这使得它们在泛化到可以从任何分布中得出的未见异常方面效果较差。在本文中，我们建议使用有限的异常示例来学习异构异常分布来解决这个问题。为此，我们引入了一种新颖的方法，即异常异质性学习 AHL，它模拟一组不同的异质可见和未见异常分布，然后利用它们来学习统一的异质异常模型。此外，AHL 是一个通用框架，现有 OSAD 模型可以即插即用，以增强其异常建模。对 9 个现实世界异常检测数据集进行的广泛实验表明，AHL 可以 1 显着增强不同最先进的 SOTA OSAD 模型在检测可见和未见异常方面的性能，在大量数据集上实现新的 SOTA 性能，2 有效地推广到未见异常

DT/MARS-CycleGAN: Improved Object Detection for MARS Phenotyping Robot
Authors David Liu, Zhengkun Li, Zihao Wu, Changying Li
机器人作物表型分析已成为大规模评估作物形态和生理特征的关键技术。这些表型测量对于开发新作物品种至关重要，以提高生产力和应对气候变化等环境挑战。然而，开发和部署作物表型机器人面临许多挑战，例如复杂多变的作物形状使机器人目标检测变得复杂，动态和非结构化环境阻碍了机器人控制，实时计算和管理大数据对机器人硬件软件提出了挑战。这项工作专门解决了第一个挑战，提出了一种用于图像增强的新型数字孪生 DT MARS CycleGAN 模型，以改进我们的模块化农业机器人系统 MARS 从复杂多变的背景中检测作物对象。我们的核心思想是，除了 CycleGAN 模型中的循环一致性损失之外，我们还在深度学习模型中设计并实施了新的 DT MARS 损失，以惩罚 MARS 捕获的真实作物图像与 DT MARS 感知的合成图像之间的不一致。因此，生成的合成裁剪图像在真实感方面非常接近真实图像，并且它们被用来微调目标检测器，例如 YOLOv8。

Mixing Histopathology Prototypes into Robust Slide-Level Representations for Cancer Subtyping
Authors Joshua Butke, Noriaki Hashimoto, Ichiro Takeuchi, Hiroaki Miyoshi, Koichi Ohshima, Jun Sakuma
通过计算病理学手段进行的整个载玻片图像分析通常依赖于处理仅具有可用载玻片级别标签的细分十亿像素图像。应用基于多实例学习的方法或变压器模型在计算上是昂贵的，因为对于每个图像，所有实例都必须同时处理。 MLP 混合器是一种正在探索的常见视觉变换器的替代模型，特别是对于大规模数据集。由于缺乏自注意力机制，它们的计算复杂度与输入补丁的数量呈线性关系，但在自然图像数据集上实现了可比的性能。我们提出了特征嵌入和聚类的组合，将整个幻灯片图像预处理为简化的原型表示，然后可以作为合适的 MLP 混合器架构的输入。我们对两个公共基准和一个内部恶性淋巴瘤数据集进行的实验显示出与当前最先进方法相当的性能，同时在计算时间和内存负载方面实现了较低的训练成本。

Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers
Authors Yuanduo Hong, Jue Wang, Weichao Sun, Huihui Pan
继 Masked Image Modeling MIM 之后，各种简单的、非分层的 Vision Transformer ViT 模型已经使用广泛的数据集进行了预训练，为语义分割提供了新的范例和巨大的潜力。当前最先进的系统结合了许多感应偏置并采用了繁琐的解码器。基于普通 ViT 的简单性和通用性的原始动机，我们为此探索高性能简约系统。我们的主要目的是为使用普通 ViT 的实际语义分割提供简单有效的基线。具体来说，我们首先探索使用最后一个特征图实现高性能语义分割的可行性和方法。因此，我们引入了 PlainSeg，该模型除了编码器或解码器的转换器层之外，仅包含三个 3 × 3 卷积。在此过程中，我们深入了解了两个基本原理：尽管采用了简单的上采样技术，但高分辨率特征对于高性能至关重要；ii 细长变压器解码器需要比宽变压器解码器大得多的学习率。在此基础上，我们进一步提出了PlainSeg Hier，它允许利用分层特征。对四个流行基准的广泛实验证明了我们方法的高性能和效率。它们还可以作为评估语义分割中基本模型的迁移能力的强大工具。

ExtSwap: Leveraging Extended Latent Mapper for Generating High Quality Face Swapping
Authors Aravinda Reddy PN, K.Sreenivasa Rao, Raghavendra Ramachandra, Pabitra mitra
我们提出了一种新颖的面部交换方法，使用预先训练的 StyleGAN 的渐进增长结构。以前的方法使用不同的编码器解码器结构，嵌入集成网络来产生高质量的结果，但它们的质量受到纠缠表示的影响。我们通过分别导出身份和属性特征来解开语义。通过学习将串联特征映射到扩展潜在空间，我们利用了最先进的质量及其丰富的语义扩展潜在空间。

Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding
Authors Yuanxing Xu, Yuting Wei, Bin Wu
视频和社交媒体内容的激增凸显了对多媒体数据进行更深入理解的必要性。大多数现有成熟的视频理解技术对于只需要浅层理解的短格式和内容表现良好，但对于需要深度理解和推理的长格式视频则表现不佳。深度视频理解 DVU 挑战赛旨在突破多模态提取、融合和分析的界限，解决整体分析长视频的问题，并提取有用的知识来解决不同类型的查询。本文介绍了一种利用图像语言预训练模型进行长视频定位和关系辨别的查询感知方法。该模型巧妙地选择与查询相关的帧，从而无需完整的电影级知识图。我们的方法在两组电影级查询中获得了第一和第四的位置。

Recoverable Privacy-Preserving Image Classification through Noise-like Adversarial Examples
Authors Jun Liu, Jiantao Zhou, Jinyu Tian, Weiwei Sun
随着云计算平台的日益普及，在基于云的图像相关服务（例如分类）中确保数据隐私变得至关重要。在本研究中，我们提出了一种新颖的隐私保护图像分类方案，该方案能够直接应用在明文域中训练的分类器对加密图像进行分类，而不需要重新训练专用的分类器。此外，加密图像可以使用密钥解密回其原始形式，并具有高保真度。具体来说，我们提出的方案涉及利用特征提取器和编码器通过新设计的噪声（如对抗性示例 NAE）来掩盖明文图像。这种 NAE 不仅向加密图像引入了类似噪声的视觉外观，而且还迫使目标分类器将密文预测为与原始明文图像相同的标签。在解码阶段，我们采用对称残差学习 SRL 框架来以最小的退化恢复明文图像。大量实验表明 1 在明文域中训练的分类器的分类精度在密文和明文域中保持相同 2 加密图像可以恢复为其原始形式，SVHN 数据集的平均 PSNR 高达 51 dB VGGFace2 数据集 3 为 48 dB，我们的系统在跨数据集的加密、解密和分类任务上表现出令人满意的泛化能力，这与训练 1 和 4 不同，针对三种潜在威胁模型实现了高水平的安全性。

Exploiting Low-confidence Pseudo-labels for Source-free Object Detection
Authors Zhihong Chen, Zilei Wang, Yixin Zhang
无源对象检测 SFOD 旨在使经过源训练的检测器适应未标记的目标域，而无需访问标记的源数据。当前的 SFOD 方法在适应阶段使用基于阈值的伪标签方法，该方法通常仅限于高置信度伪标签并导致信息丢失。为了解决这个问题，我们提出了一种新方法，通过引入高和低置信度阈值来充分利用伪标签。具体而言，按照惯例使用置信度分数高于高阈值的伪标签，而使用低置信度伪标签利用LPU模块来利用低阈值和高阈值之间的伪标签。 LPU模块由Proposal Soft Training PST和Local Spatial Contrastive Learning LSCL组成。 PST 生成用于软训练的建议的软标签，这可以减轻标签不匹配问题。 LSCL利用提案的局部空间关系来提高模型区分空间相邻提案的能力，从而进一步优化表征特征。将这两个组件结合起来克服了传统方法在利用低置信度伪标签方面所面临的挑战。

Representation Learning via Consistent Assignment of Views over Random Partitions
Authors Thalles Silva, Ad n Ram rez Rivera
我们提出了随机分区上的一致视图分配 CARP，这是一种用于视觉特征表示学习的自监督聚类方法。 CARP 使用梯度下降以端到端在线方式学习原型，无需额外的不可微模块来解决集群分配问题。 CARP 基于原型的随机分区优化了新的借口任务，该任务规范化模型并强制视图分配之间的一致性。此外，我们的方法提高了训练稳定性并防止联合嵌入训练中解决方案崩溃。通过广泛的评估，我们证明 CARP 的表示适合学习下游任务。我们通过许多标准协议在 17 个数据集中评估 CARP 的表示能力，包括线性评估、少量镜头分类、k NN、k 均值、图像检索和副本检测。我们将 CARP 性能与 11 种现有的自监督方法进行比较。我们广泛地消除了我们的方法，并证明我们提出的随机分区借口任务通过设计多个随机分类任务提高了学习表示的质量。

Weakly Supervised Learning for Breast Cancer Prediction on Mammograms in Realistic Settings
Authors Shreyasi Pathak, J rg Schl tterer, Jeroen Geerdink, Onno Dirk Vijlbrief, Maurice van Keulen, Christin Seifert
通过乳房X线照相术早期检测乳腺癌的自动方法可以显着降低死亡率。由于这些方法有太多限制，目前在医院广泛采用这些方法受到阻碍。他们假设注释可用于单个图像甚至感兴趣的 ROI 区域，并且每个患者的图像数量固定。这两种假设在一般医院环境中都不成立。放宽这些假设会导致弱监督学习环境，其中每个案例都有可用的标签，但不适用于单个图像或 ROI。并非所有为患者拍摄的图像都包含恶性区域，并且恶性 ROI 仅覆盖图像的一小部分，而大多数图像区域代表良性组织。在这项工作中，我们研究了一种两级多实例学习 MIL 方法，用于在两个公共数据集（1.6k 和 5k 例）以及 21000 例内部数据集上进行病例级乳腺癌预测。观察到乳腺癌通常仅存在于一侧，而拍摄双侧乳房的图像作为预防措施，我们提出了一种域特定的 MIL 池变体。我们证明，二级 MIL 可以应用于现实的临床环境中，其中仅提供病例标签，并且每个患者的图像数量可变。现实环境中的数据会随着患者的持续摄入而变化，而手动注释工作却不会。

Heart Disease Detection using Vision-Based Transformer Models from ECG Images
Authors Zeynep Hilal Kilimci, Mustafa Yalcin, Ayhan Kucukmanisa, Amit Kumar Mishra
心脏病，也称为心血管疾病，是一种普遍存在的危重疾病，其特征是心脏和血管受损，导致冠状动脉疾病、心力衰竭和心肌梗塞等各种并发症。及时、准确地检测心脏病在临床实践中至关重要。及早识别处于危险中的个体可以采取主动干预、预防措施和个性化治疗策略，以减缓疾病的进展并减少不良后果。近年来，由于复杂技术和计算方法的结合，心脏病检测领域取得了显着的进步。其中包括机器学习算法、数据挖掘技术和预测建模框架，利用大量临床和生理数据来提高诊断准确性和风险分层。在这项工作中，我们建议使用尖端技术（即视觉变换模型）从心电图图像中检测心脏病。这些模型是 Google Vit、Microsoft Beit 和 Swin Tiny。据我们所知，这是首次致力于通过采用尖端技术（即变压器模型）通过基于图像的心电图数据检测心脏病。为了证明所提出的框架的贡献，将视觉变换器模型的性能与最先进的研究进行了比较。

Cross-attention Spatio-temporal Context Transformer for Semantic Segmentation of Historical Maps
Authors Sidi Wu, Yizi Chen, Konrad Schindler, Lorenz Hurni
在现代地球观测技术出现之前，历史地图提供了地球表面有用的时空信息。为了从地图中提取信息，近年来广泛流行的神经网络已经取代了手工制作的地图处理方法和繁琐的体力劳动。然而，任意不确定性（称为数据相关不确定性）是原始地图的绘图扫描褪色缺陷所固有的，以及考虑到训练过程的内存限制将地图裁剪成小图块时上下文不足，这对模型做出正确的预测提出了挑战。由于即使收集更多训练数据也无法减少任意不确定性，因此我们认为互补的时空背景可能会有所帮助。为了实现这一目标，我们提出了一个基于 U Net 的网络，它将时空特征与交叉注意转换器 U SpaTem 融合，在更大的空间范围内以及通过图像的时间序列聚合信息。我们的模型比使用时间或空间上下文的其他状态或艺术模型实现了更好的性能。与纯视觉变压器相比，我们的模型更加轻量级和有效。据我们所知，在分割任务中很少探索利用空间和时间上下文。尽管我们的应用是分割历史地图，但我们相信该方法可以转移到具有类似问题的其他领域，例如卫星图像的时间序列。

FUSC: Fetal Ultrasound Semantic Clustering of Second Trimester Scans Using Deep Self-supervised Learning
Authors Hussain Alasmawi, Leanne Bricker, Mohammad Yaqub
超声是妊娠期临床实践中的主要成像方式。每年有超过 1.4 亿胎儿出生，需要进行大量扫描。大量胎儿超声扫描的可用性为训练强大的机器学习模型提供了机会。然而，大量的扫描也面临着挑战，因为监督方法需要对每张图像进行手动标记。标记通常是劳动密集型的，需要专业知识才能准确地注释图像。这项研究提出了一种无监督的方法，可以将超声图像自动聚类到大范围的胎儿视图中，从而减少或消除手动标记的需要。我们的胎儿超声语义聚类 FUSC 方法是使用包含 88,063 幅图像的大型数据集开发的，并在包含 8,187 幅图像的其他未见过的数据集上进行进一步评估，实现了超过 92 的聚类纯度。我们的调查结果有可能对胎儿超声成像领域产生重大影响，并为更先进的自动化标记解决方案铺平道路。

PrivacyGAN: robust generative image privacy
Authors Mariia Zameshina LIGM , Marlene Careil MM, IDS , Olivier Teytaud LRI, TANC , Laurent Najman LIGM

Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation
Authors Mariia Zameshina LIGM , Olivier Teytaud TAU , Laurent Najman LIGM
潜在扩散模型擅长从文本生成高质量图像。然而，人们担心生成的图像缺乏多样性。为了解决这个问题，我们引入了 Diverse Diffusion，一种提高图像多样性的方法，超越性别和种族，跨越更丰富的领域，包括颜色多样性。Diverse Diffusion 是一种通用的无监督技术，可以应用于现有的文本到图像模型。我们的方法侧重于寻找稳定扩散潜在空间中彼此远离的向量。

Click on Mask: A Labor-efficient Annotation Framework with Level Set for Infrared Small Target Detection
Authors Haoqing Li, Jinfu Yang, Yifei Xu, Runshi Wang
红外小目标检测是将小目标从红外杂波背景中分离出来是一项具有挑战性的任务。最近，深度学习范式取得了可喜的成果。然而，这些数据驱动的方法需要大量的手动注释。由于红外目标尺寸较小，人工标注消耗较多资源，制约了该领域的发展。这封信提出了一种具有水平集的劳动效率高且粗略的注释框架，只需一次粗略的点击即可获得高质量的伪掩模。设计了具有期望差能量泛函的变分水平集公式，其中在水平集演化过程中本质上保持零水平轮廓。解决了由于目标尺寸小和过度正则化导致的零级轮廓消失的问题。在 NUAA SIRST 和 IRSTD 1k 数据集上的实验表明，我们的方法实现了卓越的性能。

Machine Learning for Leaf Disease Classification: Data, Techniques and Applications
Authors Jianping Yao, Son N. Tran, Samantha Sawyer, Saurabh Garg
不断增长的可持续发展需求带来了一系列信息技术助力农业生产。特别是，人工智能的一个分支——机器学习应用的出现已经显示出多项突破，可以增强和彻底改变植物病理学方法。近年来，机器学习已在学术研究和工业应用中用于叶病分类。因此，全面了解机器学习技术和叶病检测应用的最新发展对于研究人员、工程师、管理者和企业家来说是非常有益的。本研究将对该主题的不同方面进行调查，包括数据、技术和应用。本文将从公开可用的数据集开始。之后，我们总结了常见的机器学习技术，包括传统的浅层学习、深度学习和增强学习。最后我们讨论相关应用。

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
Authors Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
高分辨率 3D 对象生成仍然是一项具有挑战性的任务，主要是由于全面带注释的训练数据的可用性有限。最近的进展旨在通过利用图像生成模型来克服这一限制，该模型在广泛的精选网络数据集上进行预训练，并使用分数蒸馏采样 SDS 等知识转移技术。有效满足高分辨率渲染的要求通常需要采用基于潜在表示的模型，例如潜在扩散模型 LDM。在此框架中，出现了一个重大挑战：为了计算单个图像像素的梯度，有必要通过图像模型的冻结组件（例如 LDM 中使用的 VAE 编码器）从指定的潜在空间反向传播梯度。然而，这种梯度传播路径从未被优化过，在训练过程中仍然不受控制。我们发现，不受管制的梯度会对 3D 模型从图像生成模型获取纹理相关信息的能力产生不利影响，导致外观合成质量较差。为了解决这一首要挑战，我们提出了一种称为“像素明智梯度裁剪 PGC”的创新操作，旨在无缝集成到现有的 3D 生成模型中，从而提高其合成质量。具体来说，我们通过有效地裁剪像素梯度来控制随机梯度的大小，同时保留关键的纹理相关的梯度方向。

RecolorCloud: A Point Cloud Tool for Recoloring, Segmentation, and Conversion
Authors Esteban Segarra Martinez, Ryan P. McMahan
点云是用高精度激光扫描仪记录的环境的 3D 空间表示。这些扫描仪可能会受到环境干扰，例如表面阴影、纹理和反射。因此，点云可能会受到虚假或不正确的颜色的污染。

WeedCLR: Weed Contrastive Learning through Visual Representations with Class-Optimized Loss in Long-Tailed Datasets
Authors Alzayat Saleh, Alex Olsen, Jake Wood, Bronson Philippa, Mostafa Rahimi Azghadi
图像分类是现代杂草管理和作物干预技术中的一项关键任务。然而，现有杂草数据集的规模、多样性和平衡性有限，阻碍了用于泛化杂草识别的深度学习模型的开发。此外，主流的完全监督的杂草分类器的昂贵的标签要求使得它们在新的杂草物种和特定地点的杂草管理中广泛部署的成本和时间过高。本文提出了一种通过视觉表示 WeedCLR 进行杂草对比学习的新方法，该方法使用类别优化损失和冯诺依曼熵深度表示来进行长尾数据集中的杂草分类。 WeedCLR 利用自我监督学习来学习丰富而强大的视觉特征，无需任何标签，并应用类优化损失函数来解决长尾数据集中的类不平衡问题。 WeedCLR 在两个公共杂草数据集 CottonWeedID15（包含 15 种杂草物种）和 DeepWeeds（包含 8 种杂草物种）上进行评估。与之前的方法相比，WeedCLR 在 CottonWeedID15 上的平均准确度提高了 4.3，在 DeepWeeds 上的平均准确度提高了 5.6。与现有方法相比，它还表现出更好的泛化能力和对不同环境条件的鲁棒性，而无需昂贵且耗时的人工注释。

Lidar Panoptic Segmentation and Tracking without Bells and Whistles
Authors Abhinav Agarwalla, Xuhua Huang, Jason Ziglar, Francesco Ferroni, Laura Leal Taix , James Hays, Aljo a O ep, Deva Ramanan
最先进的激光雷达全景分割 LPS 方法遵循自下而上的以分割为中心的方式，其中它们通过利用聚类来获取对象实例来构建语义分割网络。在本文中，我们重新思考了这种方法，并提出了一种用于 LPS 和跟踪的极其简单但有效的以检测为中心的网络。我们的网络采用模块化设计，并针对全景分割和跟踪任务的各个方面进行了优化。我们网络的核心组件之一是对象实例检测分支，我们使用点级模态注释对其进行训练，如以分割为中心的数据集中提供的那样。在没有模态长方体注释的情况下，我们使用轨迹级监督来回归模态质心和对象范围，轨迹级监督提供有关对象大小的信息，由于遮挡和激光雷达数据的稀疏性质，无法从单次扫描中推断出对象大小。我们通过学习将激光雷达点与检测到的质心相关联来获得细粒度的实例片段。

Not Just Learning from Others but Relying on Yourself: A New Perspective on Few-Shot Segmentation in Remote Sensing
Authors Hanbo Bi, Yingchao Feng, Zhiyuan Yan, Yongqiang Mao, Wenhui Diao, Hongqi Wang, Xian Sun
提出了少量镜头分割 FSS，仅用少量带注释的样本即可分割未知类目标。目前大多数 FSS 方法都遵循从支持图像中挖掘语义来指导查询图像分割的范式。然而，这种向他人学习的模式很难处理极端的类内差异，从而阻止 FSS 直接推广到遥感场景。为了弥补类内方差的差距，我们开发了一种名为 DMNet 的双重挖掘网络，用于跨图像挖掘和自挖掘，这意味着它不再仅仅关注支持图像，而是更关注查询图像本身。具体来说，我们提出了一个类公共区域挖掘 CPRM 模块，通过捕获支持查询图像对之间的共同语义来有效抑制不相关的特征污染。然后提出类特定区域挖掘CSRM模块，以过滤和净化的方式连续挖掘查询图像本身的类特定语义。此外，为了防止遥感场景中多个类的共存加剧FSS泛化的崩溃，我们还提出了一种新的已知类元抑制器KMS模块来抑制样本中已知类对象的激活。对 iSAID 和 LoveDA 遥感数据集的大量实验表明，我们的方法以最少的模型参数设置了最先进的技术。值得注意的是，我们以 Resnet 50 为骨干的模型在 1 个镜头和 5 个镜头设置下在 iSAID 上实现了 49.58 和 51.34 的 mIoU，分别比最先进的方法高出 1.8 和 1.12。

Segment Anything Meets Universal Adversarial Perturbation
Authors Dongshen Han, Sheng Zheng, Chaoning Zhang
随着Segment Anything Model SAM成为计算机视觉领域流行的基础模型，其对抗鲁棒性已成为不可忽视的问题。这项工作研究是否可以使用与图像无关的通用对抗性扰动 UAP 来攻击 SAM。换句话说，我们寻求一个单一的扰动，可以欺骗 SAM 来预测大多数（如果不是全部）图像的无效掩模。我们证明传统的以图像为中心的攻击框架对于图像无关的攻击是有效的，但对于通用的对抗性攻击却失败了。为此，我们提出了一种新颖的以扰动为中心的框架，该框架产生了基于自监督对比学习 CL 的 UAP 生成方法，其中 UAP 设置为锚样本，并且从 UAP 中增强正样本。负样本的表示预先从图像编码器获得并保存在存储体中。我们提出的基于 CL 的 UAP 生成方法的有效性通过定量和定性结果得到验证。

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
Authors Cong Yao
在本报告中，我们介绍了 DocXChain，这是一个强大的文档解析开源工具链，其设计和开发的目的是自动将文本、表格和图表等非结构化文档中包含的丰富信息转换为可读和可操作的结构化表示。机器。具体来说，提供了文本检测、文本识别、表格结构识别、布局分析等基本能力。在这些基本能力的基础上，我们还构建了一套功能齐全的文档解析管道，即通用文本读取、表格解析和文档结构化，以驱动现实场景中与文档相关的各种应用。此外，DocXChain简洁、模块化、灵活，可以轻松与LangChain、ChatGPT等现有工具、库或模型集成，构建更强大的系统，完成更复杂、更具挑战性的任务。

Deep Learning Techniques for Video Instance Segmentation: A Survey
Authors Chenhao Xu, Chang Tsun Li, Yongjian Hu, Chee Peng Lim, Douglas Creighton
视频实例分割，也称为多对象跟踪和分割，是 2019 年推出的一个新兴计算机视觉研究领域，旨在同时检测、分割和跟踪视频中的实例。通过有效分析和利用视频中的视觉信息来处理视频实例分割任务，可以实现一系列计算机视觉支持的应用，例如人类动作识别、医学图像处理、自动车辆导航、监控等。随着深度学习技术在各种计算机视觉领域中占据主导地位，人们提出了大量基于深度学习的视频实例分割方案。这项调查提供了视频实例分割深度学习方案的多方面视图，涵盖各种架构范例，以及功能性能、模型复杂性和计算开销的比较。除了常见的架构设计之外，还编译和讨论了用于提高视频实例分割深度学习模型性能的辅助技术。

ClusT3: Information Invariant Test-Time Training
Authors Gustavo A. Vargas Hakim, David Osowiechi, Mehrdad Noori, Milad Cheraghalikhani, Ismail Ben Ayed, Christian Desrosiers
深度学习模型在广泛的视觉任务中表现出了卓越的性能。然而，它们在测试时通常容易受到域转移的影响。测试时训练 TTT 方法的开发是为了尝试减轻这些漏洞，其中次要任务在训练时与主要任务同时解决，稍后在测试时用作自监督代理任务。在这项工作中，我们提出了一种基于多尺度特征图和离散潜在表示之间互信息最大化的新型无监督 TTT 技术，该技术可以作为辅助聚类任务集成到标准训练中。

Improving Representation Learning for Histopathologic Images with Cluster Constraints
Authors Weiyi Wu, Chongyang Gao, Joseph DiPalma, Soroush Vosoughi, Saeed Hassanpour
全玻片图像 WSI 扫描仪和计算能力的最新进展极大地推动了人工智能在组织病理学玻片分析中的应用。虽然这些进步很有希望，但当前用于 WSI 分析的监督学习方法面临着彻底标记高分辨率幻灯片的挑战，这个过程既费力又耗时。相比之下，自我监督学习 SSL 预训练策略正在成为一种可行的替代方案，因为它们不依赖于显式的数据注释。这些 SSL 策略正在迅速缩小与其受监督策略之间的性能差距。在此背景下，我们引入了 SSL 框架。该框架旨在通过协同 WSI 分析中的不变性损失和聚类损失来实现可转移表示学习和语义有意义的聚类。值得注意的是，我们的方法在下游分类和聚类任务中优于常见的 SSL 方法，对 Camelyon16 和胰腺癌数据集的测试证明了这一点。

Understanding Video Transformers for Segmentation: A Survey of Application and Interpretability
Authors Rezaul Karim, Richard P. Wildes
视频分割涵盖了广泛的问题表述类别，例如对象、场景、演员动作和多模态视频分割，用于使用像素级掩模描绘任务特定的场景组件。最近，该研究领域的方法从专注于基于 ConvNet 的模型转向基于 Transformer 的模型。此外，由于人们对基础科学理解、模型诊断和现实世界部署的社会影响日益增长的兴趣，变压器模型和视频时间动态也出现了各种可解释的方法。之前的调查主要集中在视频分割任务子集上的 ConvNet 模型或分类任务的转换器上。此外，基于变压器的视频分割模型的组件明智讨论尚未受到应有的关注。此外，之前对可解释性方法的评论主要集中在用于分类的变压器上，而对视频模型的视频时间动态建模能力的分析关注较少。在本次调查中，我们通过对各种类别的视频分割的深入讨论、对基于变压器的最先进模型的组件明智讨论以及对相关可解释性方法的回顾来解决上述问题。我们首先介绍不同的视频分割任务类别、它们的目标、具体挑战和基准数据集。接下来，我们对最近基于 Transformer 的模型进行组件明智的审查，并记录不同视频分割任务的最新技术。随后，我们讨论变压器模型的事后和事前可解释性方法以及用于理解时间维度在视频模型中的作用的可解释性方法。

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
Authors Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
纹理反转是一种即时学习方法，它学习新单词的奇异嵌入来表示图像风格和外观，使其能够集成到自然语言句子中以生成新颖的合成图像。然而，即使可以实现单个概念的嵌入，在一个场景中识别和集成多个对象级概念也会带来重大挑战。我们的实证测试进一步证实了这一点。为了应对这一挑战，我们引入了多概念提示学习 MCPL 框架，其中从单个句子图像对同时学习多个新单词。为了提高单词概念相关性的准确性，我们提出了三种正则化技术Attention Masking AttnMask来集中学习相关领域Prompts Contrastive Loss PromptCL来分离不同概念的嵌入和Bind adjective Bind adj。将新单词与已知单词联系起来。我们通过图像生成、编辑和使用不同图像的注意力可视化进行评估。广泛的定量比较表明，我们的方法可以通过增强的单词概念相关性来学习更多语义上解开的概念。

Improving SCGAN's Similarity Constraint and Learning a Better Disentangled Representation
Authors Iman Yazdanpanah
SCGAN 在生成的图像和条件之间添加了相似性约束，作为生成对抗网络的正则化项。相似性约束充当导师，指导生成器网络根据条件理解表示的差异。我们更深入地了解 SCGAN 的工作原理。这种理解使我们意识到相似性约束的作用类似于对比损失函数。我们相信，具有高度理解力和智能的模型可以根据图像的结构和高级特征来衡量图像之间的相似性，就像人类一样。为了制作修改后的模型，我们对 SCGAN 进行了两个主要更改，即使用 SSIM 来测量图像之间的相似性以及将对比损失原理应用于相似性约束。使用 FID 和 FactorVAE 指标，修改后的模型表现更好。与其他模型相比，修改后的模型也具有更好的通用性。

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors
Authors Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xintao Wang, Tien Tsin Wong, Ying Shan
通过运动增强静态图像可提供更吸引人的视觉体验。传统的图像动画技术主要关注具有随机动态的自然场景动画，例如云和流体，因此限制了它们对通用视觉内容的适用性。为了克服这个限制，我们探索了开放域图像的动态内容的合成，将它们转换成动画视频。关键思想是通过将图像纳入生成过程作为指导，利用文本到视频扩散模型的运动先验。给定图像，我们首先使用可学习的图像编码网络将其投影到文本对齐的丰富图像嵌入空间中，这有助于视频模型兼容地消化图像内容。然而，一些视觉细节仍然难以在生成的视频中保留。为了补充更精确的图像信息，我们通过将完整图像与初始噪声连接来进一步将完整图像提供给扩散模型。实验结果表明，我们提出的方法产生了视觉上令人信服的动画视频，表现出自然的运动和对输入图像的高保真度。比较评估表明我们的方法相对于现有竞争对手具有显着的优越性。

Mesh Represented Recycle Learning for 3D Hand Pose and Mesh Estimation
Authors Bosang Kim, Jonghyun Kim, Hyotae Lee, Lanying Jin, Jeongwon Ha, Dowoo Kwon, Jungpyo Kim, Wonhyeok Im, KyungMin Jin, Jungho Lee
一般来说，手部姿势估计旨在提高现实世界场景中模型性能的鲁棒性。然而，由于现有数据集是在有限的环境中获得的来注释 3D 信息，因此很难增强鲁棒性。尽管神经网络在定量上实现了较高的估计精度，但在视觉质量方面仍不能令人满意。定量结果与其视觉质量之间的差异仍然是手部姿势表示中的一个悬而未决的问题。为此，我们提出了一种用于 3D 手部姿势和网格估计的网格表示循环学习策略，该策略在训练阶段强化了合成的手部网格表示。具体来说，手部姿势和网格估计模型首先在训练阶段使用真实世界的手部图像来预测参数化 3D 手部注释，即手部网格的 3D 关键点位置和顶点。其次，使用自我估计的手部网格表示生成合成手部图像。之后，合成的手部图像再次输入到同一模型中。因此，所提出的学习策略通过加强合成网格表示来同时提高定量结果和视觉质量。为了鼓励原始模型输出与其回收模型输出之间的一致性，我们提出了自相关损失，最大限度地提高了我们学习策略的准确性和可靠性。因此，该模型通过从其自身的输出中学习网格表示，有效地对手部姿势估计进行自我细化。为了证明我们学习策略的有效性，我们在 FreiHAND 数据集上进行了广泛的实验。

Variational Inference for SDEs Driven by Fractional Noise
Authors Rembert Daems, Manfred Opper, Guillaume Crevecoeur, Tolga Birdal
我们提出了一种新颖的变分框架，用于在由马尔可夫近似分数布朗运动 fBM 驱动的神经随机微分方程 SDE 中进行推理。 SDE 提供了一种多功能工具，用于对具有固有噪声和随机性的现实世界连续时间动态系统进行建模。将 SDE 与变分方法的强大推理能力相结合，可以通过随机梯度下降来学习代表性函数分布。然而，传统的 SDE 通常假设潜在噪声遵循布朗运动 BM ，这阻碍了它们捕获长期依赖性的能力。相比之下，分数布朗运动 fBM 将 BM 扩展到包含非马尔可夫动力学，但现有的推断 fBM 参数的方法要么计算要求高，要么统计效率低。在本文中，基于 fBM 的马尔可夫近似，我们从成熟的随机分析领域中得出了后路径测量的有效变分推理所必需的证据下界。此外，我们提供了一个封闭式表达式来确定最佳近似系数。此外，我们建议使用神经网络来学习变分后验中的漂移、扩散和控制项，从而实现神经 SDE 的变分训练。在此框架中，我们还优化了赫斯特指数，控制分数噪声的性质。

Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems
Authors David T. Hoffmann, Simon Schrodi, Nadine Behrmann, Volker Fischer, Thomas Brox
在这项工作中，我们研究了在面临多步决策任务时变压器损耗的快速、逐步改善。我们发现 Transformer 很难学习中间任务，而 CNN 在我们研究的任务上没有这样的问题。当 Transformer 学习中间任务时，在训练和验证损失达到数百个时期的饱和度后，他们会快速且出乎意料地完成此任务。我们将这些快速改进称为“尤里卡时刻”，因为变压器似乎突然学会了一项以前无法理解的任务。类似的性能飞跃被称为“Grokking”。与 Grokking 不同的是，对于 Eureka 时刻，验证和训练损失在快速改善之前都会饱和。我们将问题追溯到 Transformer 自注意力模块中的 Softmax 函数，并展示了缓解该问题的方法。这些修复提高了训练速度。

Perceptual Assessment and Optimization of High Dynamic Range Image Rendering
Authors Peibei Cao, Rafal K. Mantiuk, Kede Ma
高动态范围 HDR 成像因其能够忠实地再现自然场景中的亮度水平而越来越受欢迎。因此，HDR图像质量评估IQA至关重要，但却被肤浅对待。大多数现有的 IQA 模型都是针对低动态范围 LDR 图像开发和校准的，这些图像已被证明与人类对 HDR 图像质量的感知相关性较差。在这项工作中，我们通过转移 LDR IQA 的最新进展提出了一系列 HDR IQA 模型。我们方法的关键步骤是指定一个简单的逆显示模型，将 HDR 图像分解为一组具有不同曝光的 LDR 图像，这些图像将由现有的 LDR 质量模型进行评估。然后，借助简单的良好暴露度测量，将每次暴露的局部质量得分汇总为每次暴露的全局质量得分，该得分将在暴露之间进一步加权以获得总体质量得分。在评估 LDR 图像时，所提出的 HDR 质量模型可以优雅地降低到具有相同性能的原始 LDR 模型。对四个人类评级 HDR 图像数据集的实验表明，我们的 HDR 质量模型始终优于现有的 IQA 方法，包括 HDR VDP 系列。

Predicting Ovarian Cancer Treatment Response in Histopathology using Hierarchical Vision Transformers and Multiple Instance Learning
Authors Jack Breen, Katie Allen, Kieran Zucker, Geoff Hall, Nishant Ravikumar, Nicolas M. Orsi
对于许多患者来说，目前的卵巢癌治疗提供的临床益处有限。对于某些疗法，无法预测患者的反应，可能使他们遭受治疗的副作用，而没有任何治疗益处。作为使用组织病理学图像 ATEC23 挑战自动预测卵巢癌治疗效果的一部分，我们评估了深度学习的有效性，以预测包括抗血管生成药物贝伐珠单抗在内的疗程是否有助于缓解或预防疾病进展至少 6 个月一组来自 78 名卵巢癌患者的 282 张组织病理学全幻灯片图像 WSI。我们的方法使用预训练的分层图像金字塔变换器 HIPT 来提取区域级特征，并使用基于注意力的多实例学习 ABMIL 模型来聚合特征并对整个幻灯片进行分类。最佳HIPT ABMIL模型的内部平衡精度为60.2±2.9，AUC为0.646±0.033。研究发现，组织病理学特定模型预训练有利于分类性能，但分层转换器则不然，而 ResNet 特征提取器可实现类似的性能。由于数据集较小且高度异构，因此在 5 倍交叉验证折叠中性能存在差异，并且折叠内的验证集和测试集性能之间存在一些极端差异。该模型不能很好地推广到组织微阵列，其准确性比随机机会差。

OODRobustBench: benchmarking and analyzing adversarial robustness under distribution shift
Authors Lin Li, Yifei Wang, Chawin Sitawarin, Michael Spratling
现有的工作在提高对抗鲁棒性方面取得了很大进展，但通常仅在与训练数据相同分布的数据上测试他们的方法，即分布 ID 测试。因此，尚不清楚这种鲁棒性如何在输入分布变化（即分布外 OOD 测试）下泛化。这是一个令人担忧的遗漏，因为当方法在野外部署时，这种分布变化是不可避免的。为了解决这个问题，我们提出了一个名为 OODRobustBench 的基准，使用 23 个数据集明智的转变（即输入分布的自然转变）和 6 个威胁明智的转变（即不可预见的对抗性威胁模型）来全面评估 OOD 对抗鲁棒性。 OODRobustBench 用于使用 60.7K 对抗性评估来评估 706 个稳健模型。这一大规模分析表明 1 对抗鲁棒性遭受严重的 OOD 泛化问题 2 ID 鲁棒性与 OOD 鲁棒性在许多分布变化下以正线性方式密切相关。后者能够根据 ID 稳健性预测 OOD 稳健性。基于此，我们能够预测现有鲁棒训练方案的 OOD 鲁棒性上限。结果表明，实现 OOD 稳健性需要设计超越传统方法的新方法。最后，我们发现额外的数据、数据增强、高级模型架构和特定的正则化方法可以提高 OOD 的稳健性。

Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding Network for Learned Video Compression
Authors Yiming Wang, Qian Huang, Bin Tang, Huashan Sun, Xing Li
最近，学习的视频压缩取得了令人兴奋的性能。遵循传统的混合预测编码框架，大多数学习方法通常采用运动估计运动补偿MEMC方法来去除帧间冗余。然而，不准确的运动矢量MV通常会导致重建帧的失真。此外，大多数方法都忽略了空间和通道冗余。为了解决上述问题，我们提出了一种基于运动感知和时空通道上下文编码的视频压缩网络 MASTC VC ，它学习潜在表示并使用变分自动编码器 VAE 来捕获帧内像素和帧间运动的特征。具体来说，我们设计了一个多尺度运动感知模块 MS MAM，通过以从粗到细的方式利用多尺度运动预测信息来估计时空通道一致运动向量。在此之上，我们进一步提出了一个时空通道上下文模块 STCCM ，它探索潜在表示的相关性，以分别从空间、时间和通道方面减少比特消耗。综合实验表明，我们提出的 MASTC VC 在三个公共基准数据集上优于先前最先进的 SOTA 方法。

Generating Robust Adversarial Examples against Online Social Networks (OSNs)
Authors Jun Liu, Jiantao Zhou, Haiwei Wu, Weiwei Sun, Jinyu Tian
在线社交网络 OSN 已发展成为现代图像的流行传输渠道。人们发现，故意设计用来误导深度神经网络 DNN 的对抗性示例 AE 对于 OSN 进行的不可避免的有损操作来说很脆弱。因此，AE在通过OSN传输后将失去攻击能力。在这项工作中，我们的目标是设计一个新的框架来生成能够在 OSN 传输中幸存的鲁棒 AE，即 OSN 传输之前和之后的 AE 都具有强大的攻击能力。为此，我们首先提出了一个称为模拟 OSN SIO 的可微网络来模拟 OSN 进行的各种操作。具体来说，SIO 网络由两个模块组成：1 个可微分的 JPEG 层，用于近似普遍存在的 JPEG 压缩；2 个编码器解码器子网络，用于模拟其余操作。然后，基于 SIO 网络，我们制定了一个优化框架，通过强制模型输出通过和不通过 SIO 来生成鲁棒的 AE。在 Facebook、微信和 QQ 上进行的大量实验表明，我们的攻击方法比现有方法产生更稳健的 AE，特别是在小失真约束下，攻击成功率 ASR 方面的性能增益可能超过 60。此外，我们还构建了一个公共数据集，其中包含由 Facebook、微信或 QQ 处理的 10,000 多对 AE，以促进未来对稳健 AE 生成的研究。

TapMo: Shape-aware Motion Generation of Skeleton-free Characters
Authors Jiaxu Zhang, Shaoli Huang, Zhigang Tu, Xin Chen, Xiaohang Zhan, Gang Yu, Ying Shan
以前的运动生成方法仅限于预装配的3D人体模型，阻碍了它们在各种非装配角色动画中的应用。在这项工作中，我们展示了 TapMo，一种文本驱动的动画管道，用于在广泛的无骨架 3D 角色中合成运动。 TapMo 的关键创新在于它使用形状变形感知特征作为指导扩散模型的条件，从而能够为各种角色生成网格特定运动。具体来说，TapMo 包括两个主要组件：Mesh Handle Predictor 和 Shape aware Diffusion Module。网格手柄预测器可预测蒙皮权重并将网格顶点聚类到自适应手柄中以进行变形控制，从而消除了对传统骨骼绑定的需要。形状感知运动扩散通过网格特定的适应来合成运动。该模块采用文本引导运动和在第一阶段提取的网格特征，通过考虑角色的形状和变形来保留动画的几何完整性。 TapMo 以弱监督方式进行训练，可以容纳大量非人类网格，无论有或没有相关的文本动作。我们通过严格的定性和定量实验证明了 TapMo 的有效性和普遍性。

TRUSTED: The Paired 3D Transabdominal Ultrasound and CT Human Data for Kidney Segmentation and Registration Research
Authors William Ndzimbong, Cyril Fourniol, Loic Themyr, Nicolas Thome, Yvonne Keeza, Beniot Sauer, Pierre Thierry Piechaud, Arnaud Mejean, Jacques Marescaux, Daniel George, Didier Mutter, Alexandre Hostettler, Toby Collins
互模图像配准 IMIR 和腹部超声 US 数据的图像分割具有许多重要的临床应用，包括图像引导手术、自动器官测量和机器人导航。然而，由于缺乏公共数据集，研究受到严重限制。我们提出了 TRUSTED 三维肾脏超声 TomodEnsitometrie 数据集，包括来自 48 名人类患者 96 个肾脏的成对经腹 3DUS 和 CT 肾脏图像，包括由两名经验丰富的放射技师进行的分割和解剖标志注释。评分者间分割一致性超过 94 Dice 分数，并且使用 STAPLE 算法生成黄金标准分割。注释了七个解剖标志，这对于 IMIR 系统的开发和评估非常重要。为了验证数据集的实用性，对 5 个用于自动肾脏分割的竞争性深度学习模型进行了基准测试，得出 CT 图像的平均 DICE 分数为 83.2 至 89.1，US 图像的平均 DICE 分数为 61.9 至 79.4。对三种 IMIR 方法进行了基准测试，相干点漂移表现最好，平均目标配准误差为 4.53 毫米。

A reproducible 3D convolutional neural network with dual attention module (3D-DAM) for Alzheimer's disease classification
Authors Gia Minh Hoang, Youngjoo Lee, Jae Gwan Kim
阿尔茨海默病是最常见的神经退行性疾病之一，其特征是β淀粉样斑块和 tau 蛋白缠结的积累。最近，深度学习方法在阿尔茨海默病的诊断中显示出了希望。在这项研究中，我们提出了一种可重复的模型，该模型利用具有双重注意力模块的 3D 卷积神经网络来进行阿尔茨海默病分类。我们在 ADNI 数据库中训练了模型，并在两个独立的数据集 AIBL 和 OASIS1 中验证了我们的方法的通用性。我们的方法实现了最先进的分类性能，在 ADNI 数据集上，MCI 进展分类的准确度为 91.94，阿尔茨海默病分类的准确度为 96.30。此外，该模型表现出良好的泛化性，在 AIBL 数据集上达到 86.37 的准确率，在 OASIS1 数据集上达到 83.42 的准确率。

DA-TransUNet: Integrating Spatial and Channel Dual Attention with Transformer U-Net for Medical Image Segmentation
Authors Guanqun Sun, Yizhi Pan, Weikun Kong, Zichang Xu, Jianhua Ma, Teeradaj Racharak, Le Minh Nguyen
由于强大的深度表示学习，自动医学图像分割取得了巨大进展。 Transformer 的影响引发了对其变体的研究，并大规模替换了传统的 CNN 模块。然而，这种趋势往往忽视了变压器的内在特征提取能力以及通过微小调整对模型和变压器模块进行潜在的改进。本研究提出了一种新颖的深度医学图像分割框架，称为 DA TransUNet，旨在将 Transformer 和双重注意力块引入传统 U 形架构的编码器和解码器中。与之前基于 Transformer 的解决方案不同，我们的 DA TransUNet 利用 Transformer 的注意力机制和 DA Block 的多方面特征提取，可以有效地结合全局、局部和多尺度特征来增强医学图像分割。同时，实验结果表明，在Transformer层之前添加了双重注意块，以方便U网结构中的特征提取。此外，在跳跃连接中合并双重注意块可以增强向解码器的特征传输，从而提高图像分割性能。各种医学图像分割基准的实验结果表明，DA TransUNet 显着优于最先进的方法。

Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers
Authors uya Yoshikawa, Tomoharu Iwata
复杂机器学习预测变量的预测解释质量通常使用插入和删除指标来衡量，这些指标评估解释的可信度，即解释反映预测变量行为的正确程度。为了提高可信度，我们提出了基于插入删除度量感知解释的优化 ID ExpO ，它优化了可微预测变量，以提高解释的插入和删除分数，同时保持其预测准确性。由于原始的插入和删除度量对于解释来说是不可微的，并且不能直接用于基于梯度的优化，因此我们将度量扩展为可微的，并使用它们来形式化基于插入和删除度量的正则化器。

PGA: Personalizing Grasping Agents with Single Human-Robot Interaction
Authors Junghyun Kim, Gi Cheon Kang, Jaein Kim, Seoyun Yang, Minjoon Jung, Byoung Tak Zhang
语言条件机器人抓取 LCRG 旨在开发基于自然语言指令来地面和抓取物体的机器人。虽然能够识别钱包等个人物品的机器人可以与非专家用户更自然地交互，但当前的 LCRG 系统主要限制机器人只能理解通用表达。为此，我们引入了一个具有新颖数据集的任务场景 GraspMine，该数据集旨在通过从单个人类机器人交互中学习来定位和抓取给定个人指标的个人物体。为了解决 GraspMine 问题，我们提出了个性化抓取代理 PGA，它通过从用户环境中收集的原始图像集合传播用户给定的信息来学习个人对象。具体来说，PGA 通过用户呈现个人对象及其相关指示器来获取个人对象信息，然后 PGA 通过旋转该对象来检查该对象。根据获取的信息，PGA 通过我们提出的标签传播算法对内存中的对象进行伪标签。利用从交互中获取的信息和回忆中的伪标记对象，PGA 采用对象接地模型来掌握个人对象。 GraspMine 上的实验表明，PGA 在离线和在线设置中均显着优于基线方法，这表明其在现实世界场景中的有效性和个性化适用性。

Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond
Authors Xiang Zhang, Senyu Li, Zijun Wu, Ning Shi
多模态技术的最新进展为在涉及文本、音频和图像处理的各种任务中表现出色的模型提供了令人兴奋的可能性。像 GPT 4V 这样的模型融合了计算机视觉和语言建模，在复杂的文本和图像任务中表现出色。之前的许多研究工作都认真研究了这些视觉大型语言模型 VLLM 在目标检测、图像字幕等任务中的性能。然而，这些分析通常侧重于单独评估每种模式的性能，缺乏对其跨模式相互作用的深入了解。具体来说，有关这些视觉语言模型是否一致或独立地执行视觉和语言任务的问题仍未得到解答。在这项研究中，我们从最近对多语言的研究中汲取灵感，并对模型的跨模态交互进行了全面分析。我们引入了一个系统框架，该框架量化了多模态设置中不同模态之间的能力差异，并提供了一组为这些评估设计的数据集。我们的研究结果表明，当任务相对简单时，像 GPT 4V 这样的模型往往会执行一致的模式。然而，随着任务变得更具挑战性，从视觉模态得出的结果的可信度就会降低。

LoMAE: Low-level Vision Masked Autoencoders for Low-dose CT Denoising
Authors Dayang Wang, Yongshun Xu, Shuo Han, Zhan Wu, Li Zhou, Bahareh Morovati, Hengyong Yu
低剂量计算机断层扫描 LDCT 可减少 X 射线辐射暴露，但代价是图像质量下降，其特点是噪声和伪影增加。最近，变压器模型成为提高 LDCT 图像质量的有前景的途径。然而，此类模型的成功依赖于大量配对的噪声和干净图像，而这些图像在临床环境中通常很少见。在计算机视觉和自然语言处理领域，掩码自动编码器 MAE 因其卓越的特征表示能力而被认为是一种有效的无标签自预训练方法。然而，最初的预训练和微调设计无法在去噪等低级视觉任务中发挥作用。为了应对这一挑战，我们重新设计了经典的编码器解码器学习模型，并促进了一种简单而有效的低级视觉 MAE，称为 LoMAE，专门用于解决 LDCT 去噪问题。此外，我们引入了 MAE GradCAM 方法来阐明 MAE LoMAE 的潜在学习机制。此外，我们还探索了 LoMAE 在各种噪声水平下的鲁棒性和生成能力。实验结果表明，所提出的LoMAE可以增强变压器的去噪性能，并大大减轻对地面真实干净数据的依赖。

LACMA: Language-Aligning Contrastive Learning with Meta-Actions for Embodied Instruction Following
Authors Cheng Fu Yang, Yen Chun Chen, Jianwei Yang, Xiyang Dai, Lu Yuan, Yu Chiang Frank Wang, Kai Wei Chang
当在训练中看到环境时，端到端 Transformers 在具体化教学方面表现出了令人印象深刻的成功率。然而，当部署在看不见的环境中时，它们往往会陷入困境。这种普遍性的缺乏是由于智能体对自然语言指令的细微变化不敏感。为了缓解这个问题，我们建议通过对比学习将代理的隐藏状态与指令明确对齐。然而，高级语言指令和代理的低级动作空间之间的语义差距仍然是一个障碍。因此，我们进一步引入了元操作的新概念来弥补这一差距。元动作是普遍存在的动作模式，可以从原始动作序列中解析出来。这些模式代表更高级的语义，直观地与指令更接近。当元动作用作附加训练信号时，代理可以更好地泛化到未见过的环境。与强大的多模态 Transformer 基线相比，我们在 ALFRED 体现指令跟踪的未见环境中实现了 4.5 倍的成功率绝对增益。附加分析表明，对比目标和元操作在实现最佳结果方面是互补的，并且生成的代理更好地将其状态与相应的指令保持一致，使其更适合现实世界的具体代理。

REVAMP: Automated Simulations of Adversarial Attacks on Arbitrary Objects in Realistic Scenes
Authors Matthew Hull, Zijie J. Wang, Duen Horng Chau
深度学习模型（例如自动驾驶汽车中使用的深度学习模型）很容易受到对抗性攻击，攻击者可能会将对抗性对象放置在环境中，从而导致错误分类。在数字空间中生成这些对抗性对象已被广泛研究，然而，在控制现实世界的环境因素时，成功地将这些攻击从数字领域转移到物理领域已被证明具有挑战性。为了应对这些限制，我们推出了 REVAMP，这是一个易于使用的 Python 库，它是同类工具中第一个用于创建任意对象的攻击场景并模拟现实环境因素、照明、反射和折射的工具。 REVAMP 通过提供广泛的可配置选项来设计实验并使用可微渲染来重现物理上合理的对抗对象，使研究人员和从业者能够快速探索数字领域内的各种场景。我们将演示并邀请观众尝试 REVAMP 在所选对象上生成对抗性纹理，同时控制各种场景参数。观众将选择一个场景、要攻击的对象、所需的攻击类别以及要使用的摄像机位置数量。然后，我们实时展示这种改变的纹理如何导致所选对象被错误分类，展示 REVAMP 在现实世界场景中的潜力。

RK-core: An Established Methodology for Exploring the Hierarchical Structure within Datasets
Authors Yao Lu, Yutian Huang, Jiaqi Nie, Zuohui Chen, Qi Xuan
近年来，机器学习领域经历了从以模型为中心到以数据为中心的转变。更广泛的数据集的积累推动了各种学习任务的进步，从而促进了在这些数据集上训练更大的模型。然而，这些数据集的探索相对较少。为此，我们引入了一种称为 RK core 的开创性方法，以便更深入地了解数据集中复杂的层次结构。在几个基准数据集中，我们发现核心值低的样本对其各自类别的代表性较差，相反，核心值高的样本表现出更大的代表性。相应地，与具有低核心值的样本相比，具有高核心值的样本对性能的贡献更大。在此基础上，我们进一步利用 RK core 来分析具有不同 coreset 选择方法的样本的层次结构。值得注意的是，我们发现高质量的核心集应该表现出层次多样性，而不是仅仅选择代表性样本。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

这篇关于【AI视野·今日CV 计算机视觉论文速览第272期】Fri, 20 Oct 2023的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！