【AI视野·今日CV 计算机视觉论文速览第269期】Tue, 17 Oct 2023

本文主要是介绍【AI视野·今日CV 计算机视觉论文速览第269期】Tue, 17 Oct 2023，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 17 Oct 2023
Totally 158 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

HairCLIPv2: Unifying Hair Editing via Proxy Feature Blending
Authors Tianyi Wei, Dongdong Chen, Wenbo Zhou, Jing Liao, Weiming Zhang, Gang Hua, Nenghai Yu
近年来，头发编辑取得了巨大进步。早期的头发编辑方法使用精心绘制的草图或蒙版来指定编辑条件。尽管它们可以实现非常细粒度的本地控制，但这种交互模式对于可以通过语言描述或参考图像轻松指定的编辑条件来说效率很低。得益于最近跨模态模型（例如 CLIP）的突破，HairCLIP 是第一个能够基于文本描述或参考图像进行头发编辑的作品。然而，这种文本驱动和参考驱动的交互模式使得HairCLIP无法支持草图或蒙版指定的细粒度控制。在本文中，我们提出了 HairCLIPv2，旨在通过一个统一的框架支持所有上述交互。同时，它在 HairCLIP 的基础上进行了改进，具有更好的不相关属性，例如身份、背景保留和不可见的文本描述支持。关键思想是将所有头发编辑任务转换为头发转移任务，并将编辑条件相应地转换为不同的代理。通过混合发型或头发颜色特征空间内的相应代理特征，将编辑效果添加到输入图像上。除了前所未有的用户交互模式支持之外，定量和定性实验证明了HairCLIPv2在编辑效果、无关属性保留和视觉自然度方面的优越性。

TraM-NeRF: Tracing Mirror and Near-Perfect Specular Reflections through Neural Radiance Fields
Authors Leif Van Holland, Ruben Bliersbach, Jan U. M ller, Patrick Stotko, Reinhard Klein
像神经辐射场 NeRF 这样的隐式表示在具有精细细节的复杂场景的真实感渲染方面显示出令人印象深刻的结果。然而，在各种室内场景中经常遇到的理想或接近完美的镜面反射物体（例如镜子）会在重建场景的表示中造成模糊性和不一致，从而导致合成渲染中出现严重的伪影。在本文中，我们提出了一种针对 NeRF 中涉及的体积渲染量身定制的新颖反射跟踪方法，该方法考虑了这些类似镜子的对象，同时避免了通过标准路径跟踪进行直接但昂贵的扩展的成本。通过使用物理上合理的材料对反射行为进行显式建模，并在体积渲染公式中使用蒙特卡罗方法估计反射辐射率，我们得出了重要采样和沿光线的透射率计算的有效策略，仅来自少数样本。

A Survey on Video Diffusion Models
Authors Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, Zuxuan Wu, Yu Gang Jiang
最近的人工智能生成内容浪潮 AIGC 在计算机视觉领域取得了巨大成功，其中扩散模型在这一成就中发挥了至关重要的作用。由于其令人印象深刻的生成能力，扩散模型正在逐渐取代基于 GAN 和自回归 Transformer 的方法，不仅在图像生成和编辑方面，而且在视频相关研究领域也展现出卓越的性能。然而，现有的调查主要集中在图像生成背景下的扩散模型，而对其在视频领域的应用的最新评论很少。为了解决这一差距，本文对 AIGC 时代的视频传播模型进行了全面回顾。具体来说，我们首先简要介绍扩散模型的基础知识和演变。随后，我们概述了视频领域扩散模型的研究，将工作分为三个关键领域：视频生成、视频编辑和其他视频理解任务。我们对这三个关键领域的文献进行了彻底的回顾，包括该领域的进一步分类和实际贡献。最后，我们讨论了该领域研究面临的挑战，并概述了未来潜在的发展趋势。

TOSS:High-quality Text-guided Novel View Synthesis from a Single Image
Authors Yukai Shi, Jianan Wang, He Cao, Boshi Tang, Xianbiao Qi, Tianyu Yang, Yukun Huang, Shilong Liu, Lei Zhang, Heung Yeung Shum
在本文中，我们提出了 TOSS，它将文本引入了仅从单个 RGB 图像中进行新颖视图合成 NVS 的任务。虽然 Zero 1 to 3 展示了令人印象深刻的零样本开放集 NVS 能力，但它将 NVS 视为纯粹的图像到图像转换问题。这种方法受到单视图 NVS 的约束性质的挑战，该过程缺乏明确的用户控制手段，并且经常导致令人难以置信的 NVS 生成。为了解决这个限制，TOSS 使用文本作为高级语义信息来约束 NVS 解决方案空间。 TOSS 对文本到图像稳定扩散进行了微调，在大规模文本图像对上进行了预训练，并引入了专门针对图像和相机姿势调节而定制的模块，以及针对姿势正确性和精细细节保存的专门训练。进行了全面的实验，结果表明我们提出的 TOSS 优于零 1 到 3，具有更合理、可控和多视图一致的 NVS 结果。

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting
Authors Zeyu Yang, Hongye Yang, Zijie Pan, Xiatian Zhu, Li Zhang
由于场景复杂性和时间动态性，从 2D 图像重建动态 3D 场景并随着时间的推移生成不同的视图具有挑战性。尽管神经隐式模型取得了进步，但仍然存在局限性。场景结构不足现有方法很难通过直接学习复杂的 6D 全光函数来揭示动态场景的空间和时间结构。 ii 缩放变形建模对于复杂的动力学，显式地建模场景元素变形变得不切实际。为了解决这些问题，我们将时空视为一个整体，并建议通过使用显式几何和外观建模优化 4D 图元集合来近似动态场景的底层时空 4D 体积。学习优化 4D 图元使我们能够在任何需要的时间通过我们定制的渲染例程合成新颖的视图。我们的模型在概念上很简单，由可在空间和时间上任意旋转的各向异性椭圆参数化的 4D 高斯组成，以及由 4D 球谐函数系数表示的视图相关和时间演变的外观。这种方法为可变长度视频和端到端训练提供了简单性、灵活性，以及高效的实时渲染，使其适合捕获复杂的动态场景运动。

LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts
Authors Hanan Gani, Shariq Farooq Bhat, Muzammal Naseer, Salman Khan, Peter Wonka
基于扩散的生成模型显着改进了文本到图像的生成，但在处理描述具有多个对象的复杂场景的冗长且复杂的文本提示时遇到挑战。虽然擅长从简短的单个对象描述生成图像，但这些模型通常很难在更长、更复杂的文本输入中忠实地捕捉所有细微差别的细节。为此，我们提出了一种利用大型语言模型法学硕士从文本提示中提取关键组件的新颖方法，包括前景对象的边界框坐标、单个对象的详细文本描述以及简洁的背景上下文。这些组件构成了我们的布局到图像生成模型的基础，该模型分两个阶段运行。初始全局场景生成利用对象布局和背景上下文来创建初始场景，但通常无法忠实地表示提示中指定的对象特征。为了解决这个限制，我们引入了迭代细化方案，该方案迭代地评估和细化框级内容，以使它们与其文本描述保持一致，根据需要重新组合对象以确保一致性。我们对具有多个对象的复杂提示的评估表明，与基线扩散模型相比，召回率有了显着提高。

Video Language Planning
Authors Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
我们感兴趣的是，利用在互联网规模数据上预训练的大型生成模型的最新进展，在生成的视频和语言空间中实现复杂的长期任务的视觉规划。为此，我们提出了视频语言规划 VLP，这是一种由树搜索过程组成的算法，其中我们训练视觉语言模型作为策略和价值函数，训练文本到视频模型作为动态模型。 VLP 将长视野任务指令和当前图像观察作为输入，并输出长视频计划，该计划提供详细的多模态视频和语言规范，描述如何完成最终任务。 VLP 随着计算预算的增加而扩展，其中更多的计算时间会导致视频计划的改进，并且能够跨不同的机器人领域合成长期视频计划，从多对象重新排列到多相机双臂灵巧操作。生成的视频计划可以通过目标条件策略转化为真实的机器人动作，以生成视频的每个中间帧为条件。

DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing
Authors Jia Wei Liu, Yan Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui Zhao, Jussi Keppo, Ying Shan, Mike Zheng Shou
尽管在基于扩散的视频编辑方面取得了显着的研究进展，但由于长距离一致性和逐帧编辑之间的矛盾，现有方法仅限于短长度视频。最近的方法试图通过引入视频 2D 表示将视频编辑降级为图像编辑来应对这一挑战。然而，他们在处理大规模运动和视图变化视频时遇到了巨大的困难，特别是对于以人为中心的视频。这促使我们引入动态神经辐射场 NeRF 作为以人为中心的视频表示，以将视频编辑问题简化为 3D 空间编辑任务。因此，可以在 3D 空间中执行编辑并通过变形场传播到整个视频。为了提供更精细和直接的可控编辑，我们提出了基于图像的3D空间编辑管道和一组有效的设计。其中包括来自 2D 个性化扩散先验和 3D 扩散先验的多视图多姿势分数蒸馏采样 SDS、参考图像的重建损失、文本引导的局部部分超分辨率以及 3D 背景空间的风格迁移。大量实验表明，我们的方法（称为 DynVideo E）在两个具有挑战性的数据集上显着优于 SOTA 方法，就人类偏好而言，其性能大幅提高了 50 95。

Motion2Language, Unsupervised learning of synchronized semantic motion segmentation
Authors Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde
在本文中，我们研究构建一个序列到序列架构，用于运动到语言的翻译和同步。目的是将动作捕捉输入翻译成英语自然语言描述，以便与执行的动作同步生成描述，从而实现语义分割作为副产品，但不需要同步的训练数据。我们提出了一种新的适合同步实时文本生成的局部注意力循环公式，以及一种改进的运动编码器架构，更适合较小的数据和同步生成。我们在 KIT 运动语言数据集上使用标准 BLEU4 度量以及简单的语义等价度量来评估各个实验中的这两种贡献。在后续实验中，我们通过多个评估指标评估我们提出的方法中生成文本的同步质量。我们发现，对注意力机制和编码器架构的贡献都提高了生成文本 BLEU 和语义等价性以及同步的质量。

Interpreting and Controlling Vision Foundation Models via Text Explanations
Authors Haozhe Chen, Junfeng Yang, Carl Vondrick, Chengzhi Mao
大规模预训练视觉基础模型（例如 CLIP）已成为各种视觉任务事实上的支柱。然而，由于其黑匣子性质，理解这些模型预测背后的基本规则和控制模型行为仍然是一个开放的挑战。我们提出了一个用自然语言解释视觉转换器的潜在标记的框架。给定一个潜在标记，我们的框架使用转换器的本地操作将其语义信息保留到最后一层，并检索最接近的文本进行解释。我们的方法可以理解模型视觉推理过程，而不需要额外的模型训练或数据收集。

BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools for Video-based Texts Generation
Authors Ji Qi, Kaixuan Ji, Jifan Yu, Duokang Wang, Bin Xu, Lei Hou, Juanzi Li
构建对视频用户指令生成文本响应的模型是一个实用且具有挑战性的主题，因为它需要视觉理解和知识推理。与语言和图像模态相比，训练效率仍然是一个严重的问题，因为现有研究是在大量稀疏视频上训练模型并与简短描述保持一致。在本文中，我们介绍了 BiLL VTG，这是一种快速自适应框架，它利用大型语言模型 LLM 对基于基本轻量级视觉工具的视频进行推理。具体来说，我们揭示了响应特定指令的关键是关注相关视频事件，并利用结构化场景图生成和描述性图像标题生成两种视觉工具来收集和表示事件信息。

Matching the Neuronal Representations of V1 is Necessary to Improve Robustness in CNNs with V1-like Front-ends
Authors Ruxandra Barbulescu, Tiago Marques, Arlindo L. Oliveira
虽然一些卷积神经网络 CNN 在对象识别方面取得了巨大成功，但它们很难识别被不同类型的常见噪声模式破坏的图像中的对象。最近，研究表明，在 CNN 前端的早期视觉区域中进行模拟计算可以提高对图像损坏的鲁棒性。在这里，我们进一步探讨了这一结果，并表明，通过精确匹配灵长类动物 V1 中发现的 RF 属性分布而产生的神经元表征是鲁棒性改进的关键。我们构建了模型的两种变体，其前端对灵长类初级视觉皮层 V1 进行建模，一种对 RF 属性进行均匀采样，另一种根据经验生物分布进行采样。生物采样模型对于图像损坏具有比均匀变量相对差 8.72 更高的鲁棒性。虽然这两个变体中相似的神经元亚群具有相似的响应特性并学习相似的下游权重，但对下游处理的影响却截然不同。

RefConv: Re-parameterized Refocusing Convolution for Powerful ConvNets
Authors Zhicheng Cai, Xiaohan Ding, Qiu Shen, Xun Cao
我们提出 Re 参数化 Refocusing Convolution RefConv 作为常规卷积层的替代品，这是一个即插即用的模块，可以在没有任何推理成本的情况下提高性能。具体来说，给定预训练模型，RefConv 将可训练的重聚焦变换应用于从预训练模型继承的基础内核，以建立参数之间的连接。例如，深度明智的 RefConv 可以将卷积核的特定通道的参数与另一个内核的参数相关联，即使它们重新关注他们从未关注过的模型的其他部分，而不是关注输入仅功能。从另一个角度来看，RefConv 通过利用预训练参数中编码的表示作为先验，并重新关注它们来学习新的表示，从而增强了现有模型结构的先验，从而进一步增强了预训练模型的表示能力。实验结果验证了 RefConv 可以在图像分类、对象检测和语义分割上将图像分类上的 top 1 准确率提高 1.47 倍，从而改善多个基于 CNN 的模型，而无需引入任何额外的推理成本或改变原始模型结构。

InfoGCN++: Learning Representation by Predicting the Future for Online Human Skeleton-based Action Recognition
Authors Seunggeun Chi, Hyung gun Chi, Qixing Huang, Karthik Ramani
基于骨架的动作识别最近取得了重大进展，InfoGCN 等模型显示出卓越的准确性。然而，这些模型存在一个关键限制，它们需要在分类之前进行完整的动作观察，这限制了它们在监视和机器人系统等实时情况下的适用性。为了克服这一障碍，我们引入了 InfoGCN，这是 InfoGCN 的创新扩展，专门为基于在线骨架的动作识别而开发。 InfoGCN 通过允许对动作类型进行实时分类（与观察序列的长度无关）来增强原始 InfoGCN 模型的能力。它通过从当前和预期的未来运动中学习来超越传统方法，从而创建整个序列的更全面的表示。我们的预测方法是作为一个外推问题来管理的，基于观察到的行为。为了实现这一点，InfoGCN 结合了神经常微分方程，这一概念可以有效地模拟隐藏状态的连续演化。经过对三个基于骨架的动作识别基准的严格评估，InfoGCN 在在线动作识别方面表现出了卓越的性能。它始终等于或超过现有技术，凸显了其重塑实时动作识别应用格局的巨大潜力。因此，这项工作代表了 InfoGCN 的重大飞跃，突破了在线、基于骨架的动作识别的极限。

Efficient Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories
Authors Jiyuan Shen, Wenzhuo Yang, Kwok Yan Lam
训练大型且最先进的机器学习模型通常需要使用大规模数据集，这反过来又使得训练和参数调整过程变得昂贵且耗时。一些研究人员选择将现实世界数据集中的信息提取为微小而紧凑的合成数据集，同时保持训练性能良好的模型的能力，因此提出了一种称为数据集蒸馏 DD 的数据高效方法。尽管该领域最近取得了进展，但现有方法仍然表现不佳，无法有效替代大型数据集。在本文中，与以前仅注重提高学生蒸馏效率的方法不同，我们是第一个认识到专家和学生之间重要相互作用的人。我们认为，在后续数据集蒸馏中采用更有效的专家轨迹时，专家平滑度会产生重大影响。基于此，我们引入了裁剪损失和梯度惩罚的集成来调节专家轨迹中参数变化的速率。此外，为了响应蒸馏过程中对随机初始化变量表现出的敏感性，我们提出了合成数据集的代表性初始化和平衡的内循环损失。最后，我们提出了两种增强策略，即中间匹配损失和权重扰动，以减轻累积误差的潜在发生。我们对不同尺度、大小和分辨率的数据集进行了广泛的实验。

Label-efficient Segmentation via Affinity Propagation
Authors Wentong Li, Yuqian Yuan, Song Wang, Wenyu Liu, Dongqi Tang, Jian Liu, Jianke Zhu, Lei Zhang
具有标签高效稀疏注释的弱监督分割吸引了越来越多的研究关注，以减少费力的像素明智标记过程的成本，而成对亲和建模技术在这项任务中发挥着至关重要的作用。大多数现有方法侧重于使用局部外观内核来建模相邻的成对电位。然而，这种本地操作无法捕获长范围依赖关系并忽略对象的拓扑。在这项工作中，我们将亲和力建模制定为亲和力传播过程，并提出局部和全局成对亲和力项来生成准确的软伪标签。还开发了一种有效的算法来显着降低计算成本。所提出的方法可以方便地插入现有的分割网络中。

Distribution prediction for image compression: An experimental re-compressor for JPEG images
Authors Maxim Koroteev, Yaroslav Borisov, Pavel Frolov
我们提出了一种以无损方式重新压缩 JPEG 图像的新方案。

Unifying Image Processing as Visual Prompting Question Answering
Authors Yihao Liu, Xiangyu Chen, Xianzheng Ma, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong
图像处理是计算机视觉的一项基本任务，旨在提高图像质量并提取后续视觉应用的基本特征。传统上，任务特定模型是为单个任务开发的，设计此类模型需要独特的专业知识。基于大型语言模型法学硕士在自然语言处理 NLP 领域的成功，计算机视觉领域也存在类似的趋势，重点是通过预训练和上下文学习来开发大规模模型。这种范式转变减少了对特定任务模型的依赖，产生了一个强大的统一模型来处理各种任务。然而，这些进步主要集中在高级视觉任务上，而对低级视觉任务的关注较少。为了解决这个问题，我们提出了一种通用图像处理模型，涵盖图像恢复、图像增强、图像特征提取任务、textit 等。我们提出的框架名为 PromptGIP，将这些不同的图像处理任务统一在一个通用框架内。受 NLP 问答 QA 技术的启发，我们采用了视觉提示问答范例。具体来说，我们将输入输出图像对视为结构化问答句，从而将图像处理任务重新编程为提示 QA 问题。 PromptGIP 可以使用提供的视觉提示承担各种文本跨域任务，从而无需进行特定于任务的微调。我们的方法为一般图像处理提供了通用且自适应的解决方案。

Evaluation and improvement of Segment Anything Model for interactive histopathology image segmentation
Authors SeungKyu Kim, Hyun Jic Oh, Seonghui Min, Won Ki Jeong
随着 Segment Anything Model SAM 作为图像分割的基础模型的出现，其应用已在包括医学领域在内的各个领域得到了广泛的研究。然而，它在组织病理学数据背景下的潜力，特别是在区域分割方面，受到的关注相对有限。在本文中，我们评估了 SAM 在组织病理学数据的零样本和微调场景中的性能，重点是交互式分割。此外，我们将 SAM 与其他最先进的交互模型进行比较，以评估其实际潜力并评估其泛化能力和领域适应性。在实验结果中，与其他模型相比，SAM 在分割性能方面表现出弱点，但在推理时间和泛化能力方面表现出相对优势。为了提高 SAM 有限的局部细化能力并增强即时稳定性，同时保留其核心优势，我们提出了对 SAM 解码器的修改。实验结果表明，所提出的修改可以有效地使 SAM 用于交互式组织学图像分割。

On the Transferability of Learning Models for Semantic Segmentation for Remote Sensing Data
Authors Rongjun Qin, Guixiang Zhang, Yang Tang
最近的基于深度学习的方法在遥感遥感语义分割分类任务上优于传统的学习方法。然而，它们需要大量的训练数据集，并且由于不同地理区域的遥感图像内容差异很大，因此通常缺乏可移植性。然而，还没有对其可迁移性进行全面分析，即在源域上训练的模型可以在多大程度上轻松适用于目标域。因此，在本文中，我们旨在研究传统和深度学习 DL 模型的原始可迁移性，以及领域适应 DA 方法在增强 DL 模型适应可迁移性的可迁移性方面的有效性。通过利用四个高度多样化的 RS 数据集，我们训练了使用和不使用三种 DA 方法的六个模型，以定量分析它们在这些数据集之间的可转移性。此外，我们开发了一种简单的方法来量化使用光谱指数作为介质的模型的可转移性，并证明了当标签不可用时，其在评估目标域的模型可转移性方面的有效性。我们的实验得出了一些关于原始可转移性和适应性可转移性的普遍重要但尚未得到充分报道的观察结果。此外，我们提出的无标签可转移性评估方法被验证优于后验模型置信度。研究结果可以指导广义 RS 学习模型的未来发展。

Combating Label Noise With A General Surrogate Model For Sample Selection
Authors Chao Liang, Linchao Zhu, Humphrey Shi, Yi Yang
现代深度学习系统需要大量数据。利用网络数据进行学习是可行的解决方案之一，但不可避免地会引入标签噪声，这会阻碍深度神经网络的性能。样本选择是处理标签噪声的有效方法。关键是根据某些标准分离干净的样品。以前的方法更注重小损失准则，将小损失样本视为干净样本。然而，这种策略依赖于每个数据实例的学习动态。由于经常发生损坏的学习模式，一些噪声样本仍然被记住。为了解决这个问题，首选免训练代理模型，不受记忆的影响。在这项工作中，我们建议利用视觉语言代理模型 CLIP 自动过滤噪声样本。 CLIP 引入外部知识，利用其文本图像对齐的能力来促进干净样本的选择。此外，边际自适应损失旨在规范 CLIP 引入的选择偏差，从而提供对标签噪声的鲁棒性。我们在现实世界和合成噪声数据集上验证了我们提出的方法的有效性。

On the Relevance of Temporal Features for Medical Ultrasound Video Recognition
Authors D. Hudson Smith, John Paul Lineberger, George H. Baker
许多医学超声视频识别任务涉及识别关键的解剖特征，无论它们何时出现在视频中，这表明对此类任务进行建模可能不会从时间特征中受益。相应地，排除时间特征的模型架构可能具有更好的样本效率。我们提出了一种新颖的多头注意力架构，它将这些假设合并为归纳先验，以在常见超声任务上实现更好的样本效率。我们在两种设置中将我们的架构与高效 3D CNN 视频识别模型的性能进行比较，一种是我们预计不需要时间特征，另一种是我们需要时间特征。在前一种设置中，我们的模型优于 3D CNN，尤其是当我们人为限制训练数据时。在后者中，结果相反。

Object Detection in Aerial Images in Scarce Data Regimes
Authors Pierre Le Jeune
对少镜头目标检测 FSOD 的大多数贡献仅在自然图像上评估其方法，但不能保证所公布性能的可移植性适用于其他类型图像的应用。我们通过对航空图像上现有 FSOD 方法的深入分析来证明这一点，并观察到与自然图像相比存在很大的性能差距。航拍图像中数量较多的小物体是自然图像与航拍图像之间明显性能差距的原因。因此，我们通过精心设计的注意力机制提高了小对象上的 FSOD 性能。此外，我们还提出了一种尺度自适应框相似性标准，可以改进 FSOD 方法的训练和评估，特别是对于小物体。我们还通过基于度量学习和微调的两种不同方法为通用 FSOD 做出贡献。通过微调方法取得了令人印象深刻的结果，该方法鼓励处理更复杂的场景，例如跨域 FSOD。我们朝这个方向进行了初步实验并获得了有希望的结果。最后，我们解决了 COSE 系统内检测模型的部署问题。必须以有限的计算能力对超过 100 兆像素的超大图像进行实时检测。

Longitudinal Self-supervised Learning Using Neural Ordinary Differential Equation
Authors Rachid Zeghlache, Pierre Henri Conze, Mostafa El Habib Daho, Yihao Li, Hugo Le Boit , Ramin Tadayoni, Pascal Massin, B atrice Cochener, Ikram Brahim, Gwenol Quellec, Mathieu Lamard
医学成像的纵向分析对于研究解剖结构或疾病随时间的进展变化至关重要。近年来，出现了一类新颖的算法，其目标是使用连续图像对或时间序列图像以自我监督的方式学习疾病进展。通过在没有外部标签或监督的情况下捕获时间模式，纵向自监督学习 LSSL 已成为一种有前途的途径。为了更好地理解这个核心方法，我们在本文中探讨了不同场景下的LSSL算法。原始的 LSSL 嵌入在自动编码器 AE 结构中。然而，传统的自我监督策略通常以类似暹罗的方式实施。因此，作为本研究的第一个新颖之处，我们探索了像 LSSL 这样的连体语言的使用。另一个新的核心框架名为神经常微分方程NODE。 NODE 是一种神经网络架构，它通过使用神经网络来学习常微分方程 ODE 的动力学。许多时间系统都可以通过 ODE 进行描述，包括对疾病进展进行建模。我们相信 LSSL 和 NODE 之间存在着有趣的联系。本文旨在更好地理解那些用于了解上述变化的疾病进展的核心算法。在我们的不同实验中，我们采用了名为 OPHDIAT 的纵向数据集，针对糖尿病视网膜病变 DR 随访。

DANAA: Towards transferable attacks with double adversarial neuron attribution
Authors Zhibo Jin, Zhiyu Zhu, Xinyi Wang, Jiayu Zhang, Jun Shen, Huaming Chen
深度神经网络虽然在很多领域都取得了优异的成绩，但很容易受到攻击样本的干扰，从而导致错误的判断。特征级攻击是有效的攻击类型之一，它针对隐藏层中学习到的特征，以提高其在不同模型之间的可迁移性。然而，据观察，可转移性很大程度上受到神经元重要性估计结果的影响。本文提出了一种双对抗神经元归因攻击方法，称为 DANAA，以获得更准确的特征重要性估计。在我们的方法中，模型输出基于对抗性非线性路径归因于中间层。目标是测量单个神经元的重量并保留对可转移性更重要的特征。我们对基准数据集进行了广泛的实验，以证明我们的方法的最先进的性能。

A Novel Benchmarking Paradigm and a Scale- and Motion-Aware Model for Egocentric Pedestrian Trajectory Prediction
Authors Amir Rasouli
预测行人行为是智能驾驶系统的主要挑战之一。在本文中，我们提出了一种评估以自我为中心的行人轨迹预测算法的新范例。基于各种上下文信息，我们提取驾驶场景，以采用有意义且系统的方法来识别预测模型的挑战。在这方面，我们还提出了一个新的指标，以便在基于场景的评估中进行更有效的排名。我们对这些场景的现有模型进行了广泛的实证研究，以揭示不同方法的缺点和优点。基于场景的分析强调了使用多模式信息源的重要性以及由于行人自我运动和规模建模不充分而带来的挑战。为此，我们提出了一种新颖的以自我为中心的轨迹预测模型，该模型受益于以有效且高效的逐步分层方式融合的多模态数据源以及旨在学习更强大的场景动态表示的两个辅助任务。

YOLOv7 for Mosquito Breeding Grounds Detection and Tracking
Authors Camila Laranjeira, Daniel Andrade, Jefersson A. dos Santos
随着气候变化威胁迫在眉睫，登革热、寨卡病毒和基孔肯雅热等被忽视的热带疾病有可能成为全球更严重的问题。遥感技术可以通过自动检测和绘制蚊子繁殖地点的地图，帮助控制埃及伊蚊（此类疾病的传播媒介）的传播，以便当地实体能够适当干预。在这项工作中，我们利用 YOLOv7（一种最先进且计算效率高的检测方法）来定位和跟踪无人机捕获的视频中的蚊子焦点。我们在一个向公众发布的数据集上进行了实验，该数据集是 ICIP 2023 年重大挑战的一部分，题为“蚊子繁殖地的自动检测”。

Prior-Free Continual Learning with Unlabeled Data in the Wild
Authors Tao Zhuo, Zhiyong Cheng, Hehe Fan, Mohan Kankanhalli
持续学习 CL 旨在逐步更新新任务的训练模型，而不会忘记旧任务所获得的知识。现有的 CL 方法通常通过任务先验来减少遗忘，即使用任务标识或先前看到的样本的子集进行模型训练。然而，当这些先验在现实世界的应用中未知时，这些方法将是不可行的。为了解决这个基本但很少研究的问题，我们提出了一种先验自由持续学习 PFCL 方法，该方法在不知道任务身份或任何先前数据的情况下学习新任务。首先，基于固定的单头架构，我们不需要任务标识来选择任务特定的输出头。其次，我们采用基于正则化的策略来实现新旧模型之间的一致预测，避免重新访问以前的样本。然而，单独使用这种策略在类增量场景中通常表现不佳，特别是对于长序列的任务。通过分析传统正则化方法的有效性和局限性，我们建议另外使用辅助未标记数据集来增强模型一致性。此外，由于一些辅助数据可能会降低性能，因此我们进一步开发了可靠的样本选择策略以获得一致的性能改进。对多个图像分类基准数据集的大量实验表明，我们的 PFCL 方法显着减轻了所有三种学习场景中的遗忘。此外，与重放有限数量的先前样本的最新基于排练的方法相比，PFCL 实现了有竞争力的准确性。

Loci-Segmented: Improving Scene Segmentation Learning
Authors Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin V. Butz
用于组合场景表示的面向槽的处理方法最近经历了巨大的发展。我们提出了 Loci Segmented Loci s，这是一种先进的场景分割神经网络，它扩展了基于槽的位置和身份跟踪架构 Loci Traub 等人，ICLR 2023。主要进步是 i 增加了预训练的动态背景模块 ii 超卷积编码器模块，可实现以对象为中心的自下而上处理 iii 级联解码器模块，可连续生成对象掩模、掩模深度图和掩模深度图通知 RGB 重建。背景模块的特点是学习前景识别模块和背景重新生成器。我们通过深度信息的集成以及通过时隙位置实体正则化和先验分割网络改进时隙分配来进一步提高性能。即使没有后面的这些改进，结果也显示出 MOVi 数据集和另一个已建立的数据集集合中的卓越分割性能。通过所有改进，Loci s 在 MOVi E 中实现了比之前最好的 32 更好的交集 IoU 分数。我们还表明 Loci 生成可很好解释的潜在表示。

Weakly Supervised Fine-grained Scene Graph Generation via Large Language Model
Authors Kibum Kim, Kanghoon Yoon, Jaeyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park
弱监督场景图生成 WSSGG 研究最近出现，作为严重依赖昂贵注释的完全监督方法的替代方案。在这方面，WSSGG 的研究利用图像描述来获得未定域三元组，同时主要关注将未定域三元组接地到图像区域。然而，他们忽略了标题中三元组形成过程中涉及的两个问题1从标题中提取三元组时出现语义过度简化问题，其中标题中的细粒度谓词被不期望地转换为粗粒度谓词，导致长尾谓词分布，2 当将标题中的三元组与感兴趣的实体谓词类对齐时，会出现低密度场景图问题，其中许多三元组被丢弃且未在训练中使用，导致监督不足。为了解决这两个问题，我们提出了一种新方法，即弱监督 SGG LLM4SGG 的大型语言模型，其中我们通过利用 LLM 在从字幕中提取三元组时对语言的深入理解和推理能力来缓解这两个问题。实体谓词类与目标数据的对齐。为了进一步让法学硕士参与这些过程，我们采用了思想链的思想和上下文中的少量学习策略。为了验证 LLM4SGG 的有效性，我们对视觉基因组和 GQA 数据集进行了广泛的实验，结果表明与最先进的 WSSGG 方法相比，召回 K 和平均召回 K 都有显着改进。

Towards Open World Active Learning for 3D Object Detection
Authors Zhuoxiao Chen, Yadan Luo, Zixin Wang, Zijian Wang, Xin Yu, Zi Huang
封闭世界 3D 对象检测、已知类别环境中的测试系统已取得重大进展。然而，在出现新对象类的开放世界场景中就会出现挑战。现有的工作以显着的注释成本从标记数据流中顺序学习新的类别，阻碍了在野外的有效部署。为了寻求有效的解决方案，我们研究了一项更实用但更具挑战性的研究任务“3D 对象检测的开放世界主动学习 OWAL 3D”，旨在选择少量的 3D 框进行注释，同时最大化已知和未知类的检测性能。核心困难在于在挖掘更多未知实例和最小化点云的标记费用之间取得平衡。根据经验，我们的研究发现盒子数量与其置信度之间的和谐反比关系有助于缓解这种困境，避免重复选择常见的已知实例并关注潜在未知的不确定对象。我们将这两种关系约束统一为一个简单而有效的 AL 策略，即 OpenCRB，它指导以最少的标记框获取信息丰富的点云。此外，我们开发了一个全面的代码库，以便于复制和未来的研究，支持 15 种基线方法，即主动学习、分布外检测和开放世界检测，2 种现代 3D 检测器，即一级 SECOND 和二级 PV RCNN 和 3基准 3D 数据集，即 KITTI、nuScenes 和 Waymo。

Enhanced Edge-Perceptual Guided Image Filtering
Authors Jinyu Li
由于具有强大的边缘保持能力和较低的计算复杂度，Guided图像滤波器GIF及其改进版本在计算机视觉和图像处理中得到了广泛的应用。然而，随着正则化参数的增加，它们都在某种程度上遭受了光晕伪影。在引导图像和输入图像结构不一致的情况下，也会发生边缘保持能力下降的情况。本文提出了一种新颖的引导图像滤波器，通过集成显式一阶边缘保护约束和显式残差约束，这将提高两种情况下的边缘保留能力。为了说明所提出的滤波器的效率，在一些典型应用中显示了性能，这些应用是单图像细节增强、多尺度曝光融合、高光谱图像分类。

GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers
Authors Takeru Miyato, Bernhard Jaeger, Max Welling, Andreas Geiger
由于变换器与输入标记的排列等价，因此对标记的位置信息进行编码对于许多任务来说是必要的。然而，由于现有的位置编码方案最初是为 NLP 任务设计的，因此它们对视觉任务（通常在数据中表现出不同的结构属性）的适用性值得怀疑。我们认为现有的位置编码方案对于 3D 视觉任务来说并不是最优的，因为它们不尊重其底层的 3D 几何结构。基于这个假设，我们提出了一种几何感知注意机制，将标记的几何结构编码为由查询和键值对之间的几何关系确定的相对变换。通过在稀疏宽基线多视图设置中评估多个新颖的视图合成 NVS 数据集，我们表明我们的注意力（称为几何变换注意力 GTA）可以提高基于 Transformer 的最先进的 NVS 模型的学习效率和性能，而无需任何额外的学习参数和

Looping LOCI: Developing Object Permanence from Videos
Authors Manuel Traub, Frederic Becker, Sebastian Otte, Martin V. Butz
最近的组合场景表示学习模型在分割和跟踪视觉场景中的不同对象方面变得非常好。然而，许多这些模型要求对象连续地、至少部分地可见。此外，他们往往无法通过直观的物理测试，而婴儿在出生后的头几个月就学会了解决这些问题。我们的目标是通过嵌入式算法推进组合场景表示算法，促进直观物理的渐进学习，类似于婴儿的发育。作为此类算法的基本组件，我们引入了 Loci Looped，它改进了最近发布的无监督对象定位、识别和跟踪神经网络架构 Loci、Traub 等人的 ICLR 2023，具有内部处理循环。该循环旨在自适应地将像素空间信息与预期混合，产生信息融合活动作为感知。此外，它旨在学习单个对象动态和对象之间交互动态的组合表示。我们展示了 Loci Looped 学习通过长时间的对象遮挡来跟踪对象，实际上是模拟它们隐藏的轨迹并预测它们的重新出现，而不需要显式的历史缓冲区。我们甚至发现，当遇到物体遮挡或临时感觉数据中断时，Loci Looped 超越了 ADEPT 和 CLEVRER 数据集上最先进的模型。这表明 Loci Looped 能够以完全无监督的紧急方式学习物体持久性和惯性的物理概念。

Camera-LiDAR Fusion with Latent Contact for Place Recognition in Challenging Cross-Scenes
Authors Yan Pan, Jiapeng Xie, Jiajie Wu, Bo Zhou
尽管已经取得了重大进展，但在视角变化、季节变化和场景变换的环境中实现地点识别仍然具有挑战性。仅依靠单个传感器的感知信息不足以解决这些问题。认识到相机和激光雷达之间的互补性，多模态融合方法引起了人们的关注。为了解决现有多模态融合工作中的信息浪费问题，本文引入了一种新颖的三通道位置描述符，它由图像、点云和融合分支的级联组成。具体来说，基于融合的分支采用双级管道，利用两种模态与潜在接触之间的相关性，从而促进信息交互和融合。

Multimodal Object Query Initialization for 3D Object Detection
Authors Mathijs R. van Geerenstein, Felicia Ruppel, Klaus Dietmayer, Dariu M. Gavrila
利用 LiDAR 和摄像头传感器功能的 3D 物体检测模型在大规模自动驾驶基准测试中表现最佳。转换器是用于此任务的流行网络架构，其中所谓的对象查询充当候选对象。根据当前传感器输入初始化这些对象查询是一种常见的做法。然而，现有方法强烈依赖激光雷达数据，并且没有充分利用图像特征。此外，它们还会带来显着的延迟。为了克服这些限制，我们提出了 EfficientQ3M，这是一种高效、模块化和多模式的解决方案，用于基于 Transformer 的 3D 对象检测模型的对象查询初始化。所提出的初始化方法与模态平衡变压器解码器相结合，其中查询可以访问整个解码器中的所有传感器模态。在实验中，我们在竞争性 nuScenes 基准上超越了基于 Transformer 的 LiDAR 目标检测的最新技术，并展示了依赖于输入的多模态查询初始化的优势，同时比 LiDAR 相机初始化的可用替代方案更高效。

Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes
Authors Yifei Qian, Xiaopeng Hong, Ognjen Arandjelovi , Zhongliang Guo, Carl R.Donovan
为了减轻训练可靠的人群计数模型的繁重注释负担，从而使模型能够从更多数据中受益而变得更加实用和准确，本文提出了一种基于均值教师框架的新的半监督方法。当可用标记数据稀缺时，模型很容易过度拟合局部补丁。在这种情况下，仅通过未标记数据来提高局部补丁预测准确性的传统方法被证明是不够的。因此，我们提出了一种更细致的方法来培养模型的内在子化能力。这种能力使模型能够利用其对人群场景的理解来准确估计区域中的计数，从而反映人类的认知过程。为了实现这一目标，我们对未标记的数据应用屏蔽，指导模型根据整体线索对这些屏蔽补丁进行预测。此外，为了帮助特征学习，这里我们结合了细粒度的密度分类任务。我们的方法是通用的，适用于大多数现有的人群计数方法，因为它没有严格的结构或损失限制。此外，我们观察到使用我们的框架训练的模型表现出类似子化的行为。只需一眼即可准确预测低密度区域，同时结合局部细节来预测高密度区域。我们的方法实现了最先进的性能，在上海科技大学 A 和 UCF QNRF 等具有挑战性的基准上大幅超越了以前的方法。

ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion
Authors Jiayu Yang, Ziang Cheng, Yunfei Duan, Pan Ji, Hongdong Li
给定 3D 对象的单个图像，本文提出了一种名为 ConsistNet 的新颖方法，该方法能够生成同一对象的多个图像，就好像它们是从不同的视点捕获的一样，而这些多个生成的图像之间的 3D 多视图一致性得到有效利用。我们方法的核心是多视图一致性块，它能够基于底层多视图几何原理跨多个单视图扩散过程进行信息交换。 ConsistNet 是标准潜在扩散模型的扩展，由两个子模块组成：一个是视图聚合模块，用于将多视图特征投影到全局 3D 体积并推断一致性；另一个是光线聚合模块，用于采样并将 3D 一致特征聚合回每个视图以强制一致性。我们的方法不同于以前的多视图图像生成方法，因为它可以轻松地放入预先训练的 LDM 中，而不需要显式的像素对应或深度预测。实验表明，我们的方法可以有效地学习冻结 Zero123 主干网络上的 3D 一致性，并且可以在单个 A100 GPU 上在 40 秒内生成对象的 16 个周围视图。

Scene Graph Conditioning in Latent Diffusion
Authors Frank Fundel
扩散模型在图像生成方面表现出色，但缺乏使用文本提示的详细语义控制。已经开发了其他技术来解决此限制。然而，由于模糊性和缺乏结构，仅根据基于文本的描述来调节扩散模型具有挑战性。相比之下，场景图提供了更精确的图像内容表示，使其更适合图像生成模型中的细粒度控制和精确合成。图像和场景图数据量稀疏，这使得微调大型扩散模型具有挑战性。我们提出了多种方法来使用 ControlNet 和门控自注意力来解决这个问题。我们能够证明，使用所提出的方法可以从场景图中生成质量更高的图像，其性能优于以前的方法。

Towards image compression with perfect realism at ultra-low bitrates
Authors Marl ne Careil, Matthew J. Muckley, Jakob Verbeek, St phane Lathuili re
图像编解码器通常经过优化以权衡比特率与失真指标。在低比特率下，这会导致很容易被察觉的压缩伪影，即使是在感知或对抗性损失的情况下进行训练时也是如此。为了提高图像质量并减少对比特率的依赖，我们建议使用迭代扩散模型进行解码，而不是使用大多数神经编解码器中使用的 MSE 或 LPIPS 失真训练的前馈解码器。除了根据矢量量化图像表示来调节模型之外，我们还根据全局文本图像描述来调节模型以提供额外的上下文。我们将我们的模型称为 PerCo 感知压缩，并将其与最先进的编解码器进行比较，速率从每像素 0.1 到 0.003 位。后者的比率比大多数先前工作中考虑的比率小一个数量级。在此比特率下，512x768 柯达图像的编码长度小于 153 个字节。尽管比特率超低，我们的方法仍保持重建真实图像的能力。

Multi-Body Neural Scene Flow
Authors Kavisha Vidanapathirana, Shin Fang Chng, Xueqian Li, Simon Lucey
使用坐标网络作为神经先验的场景流测试时间优化因其简单性、缺乏数据集偏差和最先进的性能而受到欢迎。然而，我们观察到，虽然坐标网络通过隐式地将场景流预测规范化为空间平滑来捕获一般运动，但神经先验本身无法识别现实世界数据中存在的底层多体刚性运动。为了解决这个问题，我们证明了可以实现多体刚度，而无需像之前的工作那样采用繁琐且脆弱的策略来约束每个刚体的 SE 3 参数。这是通过规范场景流优化以鼓励刚体流预测中的等距来实现的。该策略在保持连续流场的同时实现场景流中的多体刚性，从而允许跨点云序列的密集长期场景流集成。我们对现实世界数据集进行了广泛的实验，并证明我们的方法在 3D 场景流和长期逐点 4D 轨迹预测方面优于最先进的方法。

Effortless Cross-Platform Video Codec: A Codebook-Based Method
Authors Kuan Tian, Yonghang Guan, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang
在某些情况下，先进的神经视频编解码器的率失真RD性能可以超越最复杂的传统编解码器。现有神经视频编解码器高性能的主要原因之一是熵模型的使用，它可以为压缩潜在特征提供更准确的概率分布估计。这也意味着在不同平台上运行的熵模型应使用一致的分布估计的严格要求。然而，在跨平台场景下，由于平台相关的浮点计算误差，在不同平台上运行的熵模型通常会产生不一致的概率分布估计，这会导致解码端无法正确解码编码端发送的压缩码流。在本文中，我们提出了一种基于码本的跨平台视频压缩框架，该框架避免了自回归熵建模，并通过传输码本的索引序列来实现视频压缩。此外，我们建议使用条件交叉注意模块来获取帧之间的上下文，而不是使用光流进行上下文对齐。由于没有自回归建模和光流对齐，我们可以设计一个极其简约的框架，可以极大地提高计算效率。重要的是，我们的框架不再包含任何用于熵建模的分布估计模块，因此跨平台的计算不一定一致。

Towards Open-World Co-Salient Object Detection with Generative Uncertainty-aware Group Selective Exchange-Masking
Authors Yang Wu, Shenglong Hu, Huihui Song, Kaihua Zhang, Bo Liu, Dong Liu
共同显着目标检测CoSOD任务的传统定义是分割一组相关图像中共同的显着目标。该定义基于群体共识一致性的假设，该假设在开放世界环境中并不总是合理的，这导致在开放词场景下处理输入图像组中的不相关图像时模型存在鲁棒性问题。为了解决这个问题，我们引入了一种群体选择性交换掩蔽 GSEM 方法来增强 CoSOD 模型的稳健性。 GSEM 将两组图像作为输入，每组图像包含不同类型的显着对象。基于我们设计的混合指标，GSEM 使用一种新颖的基于学习的策略从每组中选择图像子集，然后交换所选图像。为了同时考虑不相关图像引入的不确定性和组中剩余相关图像的共识特征，我们设计了潜变量生成器分支和 CoSOD 变压器分支。前者由矢量量化变分自动编码器组成，用于生成模拟不确定性的随机全局变量。后者旨在捕获基于相关性的局部特征，包括群体共识。最后，两个分支的输出被合并并传递到基于转换器的解码器以生成稳健的预测。考虑到目前还没有专门针对开放世界场景设计的基准数据集，我们在现有数据集的基础上构建了三个开放世界基准数据集，分别是OWCoSal、OWCoSOD和OWCoCA。

Mask wearing object detection algorithm based on improved YOLOv5
Authors Peng Wen, Junhu Zhang, Haitao Li
佩戴口罩是预防传染病的重要措施之一。但在人流量大的公共场所，很难检测到人们的口罩佩戴情况。针对上述问题，本文提出一种基于YOLOv5l的口罩佩戴人脸检测模型。首先，多头注意力自卷积不仅提高了模型的收敛速度，而且增强了模型检测的准确性。其次，Swin Transformer Block的引入能够提取更多有用的特征信息，增强小目标的检测能力，提高模型的整体精度。我们设计的I CBAM模块可以提高目标检测精度。此外，使用增强的特征融合使模型能够更好地适应不同尺度的目标检测任务。在MASK数据集上的实验中，结果表明，本文提出的模型相比YOLOv5l模型，在mAP 0.5上实现了1.1的提升，在mAP 0.5 0.95上实现了1.3的提升。

Using Global Land Cover Product as Prompt for Cropland Mapping via Visual Foundation Model
Authors Chao Tao, Aoran Hu, Rong Xiao, Haifeng Li, Yuze Wang
数据驱动的深度学习方法在农田测绘中显示出巨大的潜力。然而，由于农田地形、气候、作物类型属性以及成像条件、视角、光照、尺度等多重因素的影响，不同场景下的农田表现出很大的域差距。这使得在特定场景中训练的模型很难直接推广到其他场景。处理此问题的常见方法是通过预训练微调范例。不幸的是，考虑到受多种因素影响的农田特征的多样性，仅使用稀疏的微调样本作为一般约束很难处理预训练数据和目标数据之间的复杂域差距。此外，随着模型参数数量的增加，微调不再是一项简单且低成本的任务。随着通过视觉基础模型进行提示学习的出现，预训练提示范例通过为每个样本引入单独的提示来重新设计优化目标。这简化了模型推理过程中从通用场景到特定场景的领域适应。因此，我们引入预训练提示范式来解释农田场景，并基于免费提供的全球土地覆盖产品设计自动提示 APT 方法。它可以实现从通用场景到专门农田场景的细粒度适应过程，而无需引入额外的标签成本。据我们所知，这项工作开创了在即时学习视角下探索农田测绘领域适应问题的先河。

MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations
Authors Heyuan Yao, Zhenhua Song, Yuyang Zhou, Tenglong Ao, Baoquan Chen, Libin Liu
在这项工作中，我们提出了 MoConVQ，这是一种利用可扩展离散表示的基于物理的运动控制的新型统一框架。基于矢量量化变分自动编码器 VQ VAE 和基于模型的强化学习，我们的方法可以有效地从跨越数十小时运动示例的大型非结构化数据集中学习运动嵌入。由此产生的运动表示不仅捕获了不同的运动技能，而且还为各种应用程序提供了强大而直观的界面。我们通过多种应用程序展示了 MoConVQ 的多功能性，包括来自各种运动源的通用跟踪控制、使用监督学习进行潜在运动表示的交互式角色控制、使用 GPT 框架从自然语言描述生成基于物理的运动，以及最有趣的是与大型应用程序的无缝集成。

The Road to On-board Change Detection: A Lightweight Patch-Level Change Detection Network via Exploring the Potential of Pruning and Pooling
Authors Lihui Xue, Zhihao Wang, Xueqian Wang, Gang Li
现有的卫星遥感变化检测CD方法通常将原始大规模双时图像对裁剪成小块对，然后使用像素级CD方法公平地处理所有块对。然而，由于大尺度卫星遥感影像变化稀疏，现有的像素级CD方法在大量未变化的区域上浪费了计算成本和内存资源，在计算量极其有限的情况下降低了星载平台的处理效率和内存资源。为了解决这个问题，我们提出了一种轻量级补丁级 CD 网络 LPCDNet，以快速删除大规模双时态图像对中大量未更改的补丁对。这有助于加速后续的像素级CD处理阶段并降低其内存成本。在我们的LPCDNet中，提出了一种敏感性引导的通道剪枝方法，以去除不重要的通道，并在ResNet18网络的基础上构建轻量级骨干网络。然后，设计多层特征压缩MLFC模块来压缩和融合双向图像块的多层特征信息。 MLFC 模块的输出被馈送到全连接决策网络中以生成预测的二进制标签。最后，在网络训练过程中利用加权交叉熵损失来解决变化不变类不平衡问题。在两个 CD 数据集上的实验表明，我们的 LPCDNet 在边缘计算平台（即 NVIDIA Jetson AGX Orin）上实现了每秒超过 1000 帧，是现有方法的 3 倍以上，并且没有明显的 CD 性能损失。

Recursive Segmentation Living Image: An eXplainable AI (XAI) Approach for Computing Structural Beauty of Images or the Livingness of Space
Authors Yao Qianxiang, Bin Jiang
本研究引入了结构美的概念作为评估图像审美吸引力的客观计算方法。通过利用分段任何模型 SAM，我们提出了一种利用递归分段来提取更细粒度的子结构的方法。此外，通过重建层次结构，我们获得了子结构数量和层次结构的更准确表示。这种方法再现并扩展了我们之前的研究，允许同时评估全彩图像的活性，而不需要灰度转换或单独计算前景和背景活性。此外，将我们的方法应用于 Scenic or Not 数据集（主观风景评级的存储库），表明与 0 6 分数范围内的主观评级高度一致。这强调结构美不仅仅是一种主观感知，而是一种可以通过客观计算获得的量化属性。通过案例研究，我们得出了三个重要结论。 1 我们的方法展示了准确分割有意义的对象的能力，包括树木、建筑物和窗户，以及绘画中的抽象子结构。 2 我们观察到图像的清晰度会影响我们的计算结果，更清晰的图像往往会产生更高的 Livingness 分数。然而，对于同样模糊的图像，Livingness 并没有表现出显着的降低，这与人类的视觉感知一致。 3 我们的方法与使用卷积神经网络 CNN 预测图像分数的方法有根本的不同。

A Search for Prompts: Generating Structured Answers from Contracts
Authors Adam Roegiest, Radha Chitta, Jonathan Donnelly, Maya Lash, Alexandra Vtyurina, Fran ois Longtin
在许多法律程序中，能够对法律问题的具体含义采取行动对于自动进行人工审查或发出某些条件信号（例如自动续订警报）非常有价值。为了支持此类任务，我们提出了一种法律问答形式，旨在针对有关合同条款的问题返回一个或多个固定答案。

3DYoga90: A Hierarchical Video Dataset for Yoga Pose Understanding
Authors Seonok Kim
瑜伽和普拉提等运动的日益普及，对人工智能领域的专业运动视频数据集产生了更大的需求。在这项研究中，我们开发了 3DYoga901，它是在三级标签层次结构中组织的。我们扩展了现有最先进数据集的姿势数量，从 82 个姿势增加到 90 个姿势。我们的数据集包括精心策划的 RGB 瑜伽姿势视频和 3D 骨骼序列。该数据集是由六人组成的专门团队创建的，其中包括瑜伽教练。它是最全面的开放数据集之一，拥有公开可用资源中最大的 RGB 视频和 3D 骨架序列集合。这一贡献有可能显着推进瑜伽动作识别和姿势评估领域的发展。此外，我们还进行了实验来评估我们提出的数据集的实用性。

Few-shot Action Recognition with Captioning Foundation Models
Authors Xiang Wang, Shiwei Zhang, Hangjie Yuan, Yingya Zhang, Changxin Gao, Deli Zhao, Nong Sang
将视觉语言知识从预训练的多模态基础模型转移到各种下游任务是一个有前途的方向。然而，由于注释附加文本描述的成本很高，目前大多数镜头动作识别方法仍然仅限于单一视觉模态输入。在本文中，我们开发了一种名为 CapFSAR 的有效即插即用框架，可以利用多模态模型的知识，而无需手动注释文本。具体来说，我们首先利用字幕基础模型，即 BLIP 来提取视觉特征并自动为输入视频生成相关字幕。然后，我们将文本编码器应用于合成标题以获得代表性文本嵌入。最后，进一步设计了基于 Transformer 的视觉文本聚合模块，以合并跨模态时空互补信息，以实现可靠的少镜头匹配。通过这种方式，CapFSAR 可以受益于预训练基础模型的强大多模态知识，从而在低样本情况下产生更全面的分类。对多个标准少镜头基准的广泛实验表明，所提出的 CapFSAR 的性能优于现有方法，并实现了最先进的性能。

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion
Authors Yitong Jiang, Zhaoyang Zhang, Tianfan Xue, Jinwei Gu
在本文中，我们的目标是解决复杂的现实世界图像恢复情况，其中一张图像可能有多种未知的退化。为此，我们提出了一种具有潜在扩散 AutoDIR 的一体化图像恢复框架，它可以自动检测和解决多个未知的退化。我们的框架首先利用盲图像质量评估模块 BIQA 来自动检测和识别图像的未知主要图像退化类型。然后，全合一图像编辑 AIR 模块在 BIQA 的指导下处理多种退化图像恢复。最后，提出了结构校正模块SCM来恢复被AIR扭曲的图像细节。我们的综合评估表明，AutoDIR 能够实现卓越的恢复结果，同时支持更广泛的任务，从而超越最先进的方法。

Expression Domain Translation Network for Cross-domain Head Reenactment
Authors Taewoong Kang, Jeongsik Oh, Jaeseong Lee, Sunghyun Park, Jaegul Choo
尽管头部重演取得了显着的进步，但现有方法在跨域头部重演方面面临挑战，跨域头部重演旨在将人类动作转移到人类之外的领域，包括卡通人物。由于外观不同，例如大眼睛，从域外图像中提取运动仍然很困难。最近，之前的工作介绍了一个名为 AnimeCeleb 的大规模动漫数据集和一个跨域头部重演模型，包括基于优化的映射函数，用于将人类领域的表达转换为动漫领域。然而，我们发现依赖于表达式子集的映射函数对各种表达式的映射施加了限制。为了解决这一挑战，我们引入了一种新颖的表达域翻译网络，可将人类表达转换为动漫表达。具体来说，为了保持表达域翻译网络的输入和输出之间表达的几何一致性，我们采用了 3D 几何感知损失函数，该函数可以减少人类和动漫的 3D 网格中顶点之间的距离。通过这样做，它可以强制实现两个交叉表达域的高保真度和一对一映射。

ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking
Authors Yutong Kou, Jin Gao, Bing Li, Gang Wang, Weiming Hu, Yizheng Wang, Liang Li
最近，由于较小的输入尺寸或更轻的特征提取主干，变压器使面向速度的跟踪器能够高速接近最先进的 SOTA 性能，尽管它们仍然大大落后于相应的面向性能的版本。在本文中，我们证明了可以缩小甚至消除这一差距，同时基于较小的输入尺寸实现高跟踪速度。为此，我们不均匀地调整裁剪图像的大小以具有更小的输入尺寸，而目标更可能出现的区域的分辨率更高，反之亦然。这使我们能够解决在关注更大视野的同时为目标保留更多原始信息（尽管输入尺寸较小）的困境。我们的非均匀调整大小公式可以通过二次编程 QP 有效地解决，并自然地集成到大多数基于作物的本地跟踪器中。基于两种 Transformer 跟踪器（即 OSTrack 和 TransT）对五个具有挑战性的数据集进行的综合实验证明了对它们的一致改进。特别是，将我们的方法应用于以速度为导向的 OSTrack 版本，在 TNL2K 上的 AUC 甚至比以性能为导向的版本高出 0.6，同时运行速度提高了 50，并节省了超过 55 个 MAC。

GreatSplicing: A Semantically Rich Splicing Dataset
Authors Xiuli Bi, Jiaming Liang
在现有的拼接伪造数据集中，拼接区域的语义多样性不足导致训练后的检测模型过度拟合语义特征而不是拼接痕迹的问题。同时，由于缺乏合理的数据集，提出的不同检测方法在实验设置上无法达成共识。为了解决这些紧迫的问题，本文提出了GreatSplicing，一种手动创建的大量且高质量的拼接数据集。 GreatSplicing 由 5000 张拼接图像组成，覆盖了 335 个不同语义类别的拼接区域，使神经网络能够更好地掌握拼接痕迹。大量实验表明，与现有数据集相比，在 GreatSplicing 上训练的模型表现出最小的错误识别率和卓越的跨数据集检测能力。

Generalizable Person Search on Open-world User-Generated Video Content
Authors Junjie Li, Guanshuo Wang, Yichao Yan, Fufu Yu, Qiong Jia, Jie Qin, Shouhong Ding, Xiaokang Yang
人员搜索是一项具有挑战性的任务，涉及从大量未裁剪的场景图像中检测和检索人员。现有的人员搜索应用程序大多是在同源场景中进行训练和部署的。然而，由于资源和劳动力成本的限制，收集和注释每个场景的训练样本通常很困难。此外，由于隐私和公共安全的监管，用于训练的大规模域内数据通常无法合法地供普通开发者使用。利用易于访问的大规模用户生成视频内容 emph（即 UGC 视频）来训练人员搜索模型可以适应开放世界的分布，但仍然会因域差异与监控场景而存在性能差距。在这项工作中，我们探索增强人员搜索模型的域外泛化能力，并提出了特征级别和数据级别泛化的可泛化框架，以促进任意场景中的下游任务。具体来说，我们通过引入基于多任务原型的域特定批量归一化和通道明智的 ID 相关特征去相关策略，专注于学习检测和 ReID 的域不变表示。我们还识别并解决开放世界训练框架中的典型噪声源，包括不准确的边界框、身份标签的遗漏以及跨摄像机数据的缺失。

A computational model of serial and parallel processing in visual search
Authors Rachel F. Heaton
以下是一篇论文，旨在了解视觉搜索中的各种现象告诉我们人类视觉表示和过程的本质。我首先回顾视觉搜索研究中的一些主要实证结果。接下来，我根据我认为这些发现暗示的腹侧视觉处理的表征和过程提出了视觉搜索理论。这些原理在一个名为 CASPER 并发注意串行和并行评估关系的计算模型中实例化，该模型最初由 Hummel 开发，我已对其进行了调整，以解释视觉搜索中的一系列现象。然后，我描述了 CASPER 模型的扩展，以解释我们搜索视觉项目的能力，该能力不仅由组成这些项目的特征定义，而且由这些特征之间的空间关系定义。描述了七个实验，其中四个主要实验和三个重复实验，用于测试 CASPER 关于关系搜索的预测。

Flow Dynamics Correction for Action Recognition
Authors Lei Wang, Piotr Koniusz
各种研究表明，动作识别性能在很大程度上取决于提取的动作类型以及人类动作表示的准确性。在本文中，我们研究了不同的光流，以及从这些光流中提取的捕获短期和长期运动动力学的特征。我们对光流的幅度分量进行功率归一化，以进行流动力学校正，以增强微妙或抑制突然的运动。我们表明，依赖于光流的现有动作识别模型能够通过我们校正的光流来提高性能。为了进一步提高性能，我们通过一个简单的幻觉步骤，仅选择性能最佳的光流特征，将校正后的流动力学集成到流行模型中，并且我们表明，通过将 CNN 特征图转换为具有不同运动尺度的这些光流特征，可以实现

EAR-Net: Pursuing End-to-End Absolute Rotations from Multi-View Images
Authors Yuzhen Liu, Qiulei Dong
绝对旋转估计是 3D 计算机视觉中的一个重要课题。现有文献中的工作通常采用多阶段至少两阶段估计策略，其中依次实现多个独立操作特征匹配、两视图旋转估计和旋转平均。然而，这种多阶段策略不可避免地导致每个涉及的操作引起的误差累积，并相应地降低其对全局旋转的最终估计。为了解决这个问题，我们提出了一种基于深度神经网络（称为 EAR Net）的多视图图像估计绝对旋转的端到端方法。所提出的 EAR Net 由极线置信图构建模块和置信感知旋转平均模块组成。探索对极置信图构建模块，以同时预测输入图像及其相应置信度之间的成对相对旋转，从而产生称为对极置信图的加权图。基于该图，探索可微分的置信感知旋转平均模块来预测绝对旋转。由于引入了相对旋转的置信度，所提出的 EAR Net 可以有效地处理异常情况。

EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge
Authors Tom Bryan, Jacob Carlson, Abhishek Arora, Melissa Dell
数十亿公共领域文档仍然被困在硬拷贝中或缺乏准确的数字化。现代自然语言处理方法无法用于索引、检索和总结其文本，进行计算文本分析或提取信息进行统计分析，并且这些文本无法纳入语言模型训练。鉴于公共领域文本的多样性和绝对数量，大规模释放它们需要光学字符识别 OCR，该光学字符识别 OCR 必须准确、部署成本极低，并且采样效率高，可以根据新颖的集合、语言和字符集进行定制。现有的 OCR 引擎主要是为高资源语言的小规模商业应用程序而设计的，通常无法满足这些要求。 EffOCR EfficientOCR 是一种新颖的开源 OCR 包，通过放弃通常用于 OCR 的序列到序列架构，满足大规模解放文本的计算和样本效率要求，该架构将学习的视觉模型的表示作为学习的语言模型的输入。相反，EffOCR 将 OCR 建模为字符或单词级图像检索问题。 EffOCR 训练成本低且样本效率高，因为该模型只需要学习字符的视觉外观，而不需要学习它们如何按顺序使用来形成语言。 EffOCR 模型库中的模型只需几行代码即可现成部署。重要的是，EffOCR 还可以通过简单的模型训练界面和最小的样本效率实现简单、样本高效的定制。

Smart City Transportation: Deep Learning Ensemble Approach for Traffic Accident Detection
Authors Victor Adewopo, Nelly Elsayed
道路交通的动态性和不可预测性需要有效的事故检测方法，以提高智慧城市的安全性并简化交通管理。本文对流行的事故检测技术进行了全面的探索研究，阐明了其他最先进方法的细微差别，同时详细概述了不同的交通事故类型，如追尾碰撞、T 骨碰撞和正面碰撞事故。我们的新颖方法引入了 I3D CONVLSTM2D 模型架构，这是一种通过将 RGB 帧与光流信息集成来专门为智能城市交通监控系统中的事故检测而定制的轻量级解决方案。我们的实验研究的实证分析强调了我们方法的有效性，I3D CONVLSTM2D RGB 光流可训练模型优于同类模型，实现了令人印象深刻的 87 平均精度 MAP。我们的研究结果进一步阐述了数据不平衡带来的挑战，特别是在处理有限数量的数据集、道路结构和交通场景时。

Evading Detection Actively: Toward Anti-Forensics against Forgery Localization
Authors Long Zhuo, Shenghai Luo, Shunquan Tan, Han Chen, Bin Li, Jiwu Huang
反取证旨在消除或隐藏篡改文物的痕迹。通常，反取证方法旨在欺骗二进制检测器并说服它们误判图像的真实性。然而，据我们所知，尚未尝试在像素级别欺骗伪造检测器并错误定位伪造区域。传统的对抗性攻击方法不能直接用于对抗伪造定位，因为存在以下缺陷 1 它们往往只是天真地诱导目标取证模型翻转其像素级原始或伪造的决策 2 当面对看不见的取证模型 3 一旦目标取证模型使用其生成的反取证图像进行重新训练，它们就会失去有效性。为了解决这三个缺陷，我们提出了 SEAR 自监督反取证，这是一种新颖的自监督和对抗性训练算法，可以有效地训练针对伪造定位的深度学习反取证模型。 SEAR 设置了一个借口任务来重建自监督学习的扰动。在对抗训练中，SEAR 采用伪造定位模型作为监督者来探索篡改特征，并构建深度学习隐藏器来擦除相应的痕迹。我们在不同的数据集上进行了大规模实验。

Deep Unfolding Network for Image Compressed Sensing by Content-adaptive Gradient Updating and Deformation-invariant Non-local Modeling
Authors Wenxue Cui, Xiaopeng Fan, Jian Zhang, Debin Zhao
受某些优化求解器的启发，深度展开网络DUN近年来在图像压缩感知CS领域引起了广泛关注。然而，仍然存在以下两个问题 1 在现有的DUN中，大多数超参数通常是内容无关的，这极大地限制了它们对不同输入内容的适应性。 2 在每次迭代中，通常采用普通的卷积神经网络，这削弱了对更广泛上下文先验的感知，从而抑制了表达能力。本文受传统近端梯度下降PGD算法的启发，提出了一种新颖的图像压缩感知DUN（DUN CSNet）来解决上述两个问题。具体来说，对于第一个问题，提出了一种新颖的内容自适应梯度下降网络，其中开发了一个精心设计的步长生成子网络，通过生成内容感知步长映射，为输入图像的不同纹理动态分配相应的步长。，实现内容自适应梯度更新。对于第二个问题，考虑到图像中存在许多相似的斑块但已经发生变形的事实，开发了一种新颖的变形不变非局部近端映射网络，该网络可以通过变形不变非局部斑块自适应地建立非局部斑块之间的长程依赖关系。局部建模，导致对上下文先验有更广泛的认识。

RoomDesigner: Encoding Anchor-latents for Style-consistent and Shape-compatible Indoor Scene Generation
Authors Yiqun Zhao, Zibo Zhao, Jing Li, Sixun Dong, Shenghua Gao
室内场景生成旨在在空间合理的布局内创建形状兼容、风格一致的家具布置。然而，大多数现有方法主要侧重于生成合理的家具布局，而不包含与单个家具相关的具体细节。为了解决这个限制，我们提出了一个两阶段模型，通过将家具编码为锚点潜在表示，将形状先验集成到室内场景生成中。在第一阶段，我们采用离散矢量量化将家具编码为锚点。基于锚潜在表示，家具的形状和位置信息由位置、大小、方向、类别和我们的锚潜在的串联来表征。在第二阶段，我们利用 Transformer 模型来自回归预测室内场景。由于结合了所提出的锚定潜在表示，我们的生成模型产生了形状兼容且风格一致的家具布置以及各种形状的合成家具。此外，我们的方法促进了各种人类交互应用，例如风格一致的场景完成、对象不匹配校正和可控对象级别编辑。 3D Front 数据集上的实验结果表明，与现有方法相比，即使没有形状检索，我们的方法也可以生成更加一致和兼容的室内场景。

An Empirical Study of Super-resolution on Low-resolution Micro-expression Recognition
Authors Ling Zhou, Mingpei Wang, Xiaohua Huang, Wenming Zheng, Qirong Mao, Guoying Zhao
低分辨率 LR 场景中的微表情识别 MER 提出了重要且复杂的挑战，特别是对于拥挤环境中的群体 MER 等实际应用。尽管在提高 LR 图像和视频质量的超分辨率技术方面取得了相当大的进步，但很少有研究关注于研究超分辨率以提高 LR MER。研究的匮乏可归因于捕捉微表情的微妙运动的固有困难，即使是在原始分辨率的 MER 样本中，由于独特特征的丢失，这在 LR 样本中变得更具挑战性。此外，人们注意到超分辨率辅助 MER 方法缺乏系统的基准测试和彻底的分析。本文在深入的文献调查的指导下，通过进行一系列集成超分辨率 SR 和 MER 方法的基准实验来解决这些问题。具体来说，我们采用了七种最先进的 SOTA MER 技术，并在 13 种 SOTA SR 技术生成的样本上评估了它们的性能，从而解决了 MER 中的超分辨率问题。通过我们的实证研究，我们发现了与 SR 辅助 MER 相关的主要挑战，并通过利用 SR 和 MER 方法的最新进展来确定应对这些挑战的途径。

Black-box Targeted Adversarial Attack on Segment Anything (SAM)
Authors Sheng Zheng, Chaoning Zhang
深度识别模型很容易受到对抗性示例的影响，这些示例通过向图像输入添加准不可察觉的扰动来改变模型输出。最近，分段任意模型 SAM 因其对未见数据和任务的令人印象深刻的泛化而成为计算机视觉中流行的基础模型。实现对 SAM 的灵活攻击有利于理解 SAM 在对抗环境中的鲁棒性。为此，本工作旨在实现对 SAM 的定向对抗攻击 TAA。具体来说，在某种提示下，目标是使对抗性示例的预测掩模类似于给定目标图像的掩模。 SAM 上的 TAA 任务已在最近的 arXiv 工作中通过假设访问提示和模型在白盒设置中实现，因此不太实用。为了解决即时依赖问题，我们提出了一种简单而有效的方法，仅攻击图像编码器。此外，我们提出了一种新颖的正则化损失，通过增加对抗性图像相对于随机自然图像的特征优势来增强跨模型可转移性。

Towards Unified and Effective Domain Generalization
Authors Yiyuan Zhang, Kaixiong Gong, Xiaohan Ding, Kaipeng Zhang, Fangrui Lv, Kurt Keutzer, Xiangyu Yue
我们提出了textbf UniDG，一种用于textbf域textbf泛化的新颖的textbf统一框架，它能够显着增强基础模型的分布外泛化性能，无论其架构如何。 UniDG的核心思想是在推理阶段对模型进行微调，从而节省迭代训练的成本。具体来说，我们鼓励模型以无监督的方式学习测试数据的分布，并对模型参数的更新步骤施加惩罚。惩罚项可以有效减少灾难性遗忘问题，因为我们希望最大限度地保留原始模型中有价值的知识。根据经验，在 12 个视觉主干（包括 CNN、MLP 和基于 Transformer 的模型）中，参数范围从 1.89M 到 3.03M，UniDG 在 DomainBed 上的平均准确度提高了 5.4。这些性能结果证明了 UniDG 的优越性和多功能性。

A Survey of Graph and Attention Based Hyperspectral Image Classification Methods for Remote Sensing Data
Authors Aryan Vats, Manan Suri
在高光谱成像 HSI 中使用深度学习技术进行分类的情况正在迅速增长，并取得了改进的性能。由于产生 HSI 图像的传感器捕获的数据的性质，一个常见的问题是条带的维数，它可能或可能不会有助于标签类别的区分。由于类标签的广泛性，主成分分析是一种常用的降维方法。然而，可能存在借助注意力机制合并高光谱图像所有波段的方法。此外，为了获得更好的光谱空间特征提取，最近的方法还探索了图卷积网络的使用及其在预测中使用节点特征的独特能力，这类似于像素光谱构成。在本次调查中，我们全面总结了基于图和基于注意力的方法，用于对遥感和航空 HSI 图像进行高光谱图像分类。

AP$n$P: A Less-constrained P$n$P Solver for Pose Estimation with Unknown Anisotropic Scaling or Focal Lengths
Authors Jiaxin Wei, Stefan Leutenegger, Laurent Kneip
视角 n Point P n P 是各种应用中姿态估计的基本算法。在本文中，我们提出了一种具有宽松约束的 P n P 问题的新方法，无需精确的 3D 坐标或完整的校准数据。我们将其称为 AP n P，因为它能够处理 3D 坐标的未知各向异性缩放因子，或者除了传统的刚性姿势之外还可以处理两个不同的焦距。通过代数运算和新颖的参数化，这两种情况都被引入相似的形式，主要通过旋转的顺序和各向异性缩放操作来区分它们。 AP n P 进一步将这两种情况归结为相同的多项式问题，该问题使用 Gr bner 基方法来解决。

Chinese Painting Style Transfer Using Deep Generative Models
Authors Weijian Ma, Yanyang Kong
艺术风格迁移旨在修改图像的风格，同时保留其内容。自 2015 年以来，使用深度学习模型的风格迁移得到了广泛的研究，大多数应用都集中在梵高、莫奈、塞尚等特定艺术家身上。关于国画风格迁移的研究和应用还很少。在本文中，我们将研究和利用不同最先进的深度生成模型进行中国绘画风格迁移，并定性和定量地评估其表现。此外，我们提出了自己的算法，该算法结合了多种风格迁移模型来完成我们的任务。

ProteusNeRF: Fast Lightweight NeRF Editing using 3D-Aware Image Context
Authors Binglun Wang, Niladri Shekhar Dutt, Niloy J. Mitra
神经辐射场 NeRF 最近已成为照片级逼真对象捕捉的流行选择，因为它们甚至能够从手持视频输入中忠实地捕捉高保真体积内容。尽管大量研究致力于有效优化以实现实时训练和渲染，但交互式编辑 NeRF 的选项仍然有限。我们提出了一种非常简单但有效的神经网络架构，它快速高效，同时保持较低的内存占用。该架构可以通过用户友好的基于图像的编辑来逐步引导。我们的表示允许在训练阶段通过语义特征蒸馏直接选择对象。更重要的是，我们提出了一个本地 3D 感知图像上下文，以促进视图一致的图像编辑，然后可以通过几何和外观调整将其提炼为微调的 NeRF。我们在各种示例上评估我们的设置，以演示外观和几何编辑，并报告比专注于文本引导 NeRF 编辑的并发工作加速 10 30 倍。

Prompting Scientific Names for Zero-Shot Species Recognition
Authors Shubham Parashar, Zhiqiu Lin, Yanan Li, Shu Kong
经过网络规模图像文本对的训练，视觉语言模型 VLM（例如 CLIP）可以以零镜头方式识别常见物体的图像。然而，如何使用 CLIP 零次识别高度专业化的概念，例如鸟类、植物和动物的物种，其学名是用拉丁语或希腊语书写的，目前尚未得到充分探索。事实上，CLIP 在零样本物种识别方面表现不佳，提示使用科学名称，例如 Lepus Timidus 的照片，这是拉丁文的一个科学名称。因为这些名字通常不包含在 CLIP 的训练集中。为了提高性能，先前的工作建议使用大型语言模型 LLM 来生成描述，例如物种颜色和形状的描述，并在提示中另外使用它们。我们发现它们只带来边际收益。不同的是，我们的动机是将科学名称（例如 Lepus Timidus）翻译为常见的英文名称（例如 mountain hare），并在提示中使用此类名称。

Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models
Authors Zijian Zhang, Luping Liu. Zhijie Lin, Yichen Zhu, Zhou Zhao
我们提出了第一个无监督且基于学习的方法来识别预训练扩散模型的 h 空间中的可解释方向。我们的方法源自在 GAN 潜在空间上运行的现有技术。简而言之，我们采用预训练扩散模型的移位控制模块来将样本操纵为其自身的移位版本，然后使用重建器来重现操纵的类型和强度。通过联合优化它们，模型将自发地发现解开且可解释的方向。为了防止发现无意义和破坏性的方向，我们采用鉴别器来保持移动样本的保真度。由于扩散模型的迭代生成过程，我们的训练需要大量的 GPU VRAM 来存储大量中间张量以用于反向传播梯度。为了解决这个问题，我们首先提出一种基于梯度检查点技术的通用 VRAM 高效训练算法，以在整个生成过程中反向传播任何梯度，同时保持可接受的 VRAM 占用并牺牲训练效率。与现有的扩散模型相关工作相比，我们的方法本质上确定了全局和可扩展的方向，而不需要任何其他复杂的过程。

Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis
Authors Chaoyi Wu, Jiayu Lei, Qiaoyu Zheng, Weike Zhao, Weixiong Lin, Xiaoman Zhang, Xiao Zhou, Ziheng Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie
近年来，在大型基础模型的推动下，人工智能的发展取得了巨大的进步，引发了公众的普遍兴趣。在这项研究中，我们的目标是评估 OpenAI 最新模型 GPT 4V ision 的性能，特别是在多模式医疗诊断领域。我们的评估涵盖17个人体系统，包括中枢神经系统、头颈、心脏、胸部、血液、肝胆、胃肠、泌尿生殖、妇科、产科、乳腺、肌肉骨骼、脊柱、血管、肿瘤、创伤、儿科，并拍摄图像来自日常临床常规使用的 8 种模式，例如 X 射线、计算机断层扫描 CT、磁共振成像 MRI、正电子发射断层扫描 PET、数字减影血管造影 DSA、乳房 X 线摄影、超声波和病理学。

Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network
Authors Xinting Li, Shizhou Zhang, Yue LU, Kerry Dan, Lingyan Ran, Peng Wang, Yanning Zhang
本文研究零射击目标视觉导航问题。在目标目标视觉导航任务中，智能体需要从其以自我为中心的视觉输入中定位导航目标。零射击意味着智能体需要寻找的目标在训练阶段没有经过训练。为了解决训练过程中导航能力与目标特征的耦合问题，我们提出了类独立关系网络 CIRN 。该方法将目标检测信息与目标与导航目标之间的相对语义相似度相结合，构建一种基于相似度排序的全新状态表示，该状态表示不包含目标特征或环境特征，有效解耦了智能体的导航能力从目标特征。图卷积网络 GCN 用于根据不同对象的相似性来学习它们之间的关系。在测试过程中，我们的方法展示了强大的泛化能力，包括不同目标和环境的零射击导航任务。通过在 AI2 THOR 虚拟环境中进行大量实验，我们的方法在零射击目标视觉导航任务中优于当前最先进的方法。此外，我们在更具挑战性的跨目标和跨场景设置中进行了实验，这进一步验证了我们方法的鲁棒性和泛化能力。

Bounding and Filling: A Fast and Flexible Framework for Image Captioning
Authors Zheng Ma, Changxin Wang, Bo Huang, Zixuan Zhu, Jianbing Zhang
大多数遵循自回归方式的图像字幕模型都存在显着的推理延迟。一些模型采用非自回归方式来加速这一过程。然而，普通的非自回归方式会导致性能不佳，因为它同时生成所有单词，无法捕获描述中单词之间的关系。半自回归方式采用部分并行方法来保持性能，但牺牲了推理速度。在本文中，我们介绍了一种基于边界和填充技术的快速灵活的图像字幕框架，称为 BoFiCap。 BoFiCap 模型利用图像字幕任务的固有特征来预先定义图像区域及其关系的边界框。随后，BoFiCap模型使用两种生成方式在每个框中填充相应的单词。利用方框提示，我们的填充过程可以让每个单词更好地感知其他单词。此外，我们的模型提供灵活的图像描述生成1，根据速度或性能要求采用不同的生成方式，2根据用户指定的框生成不同的句子。对 MS COCO 基准数据集的实验评估表明，我们的框架以非自回归方式实现了任务特定指标 CIDEr 125.6 的最新技术，同时以半自回归方式比采用自回归方式的基线模型加速了 9.22 倍，我们的方法在 CIDEr 上达到 128.4，同时加速 3.69 倍。

Top-K Pooling with Patch Contrastive Learning for Weakly-Supervised Semantic Segmentation
Authors Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao
仅使用图像级标签的弱监督语义分割 WSSS 由于成本效益而受到广泛关注。最近，基于 Vision Transformer ViT 的没有类激活图 CAM 的方法比以前使用 CAM 的方法在生成可靠的伪标签方面表现出了更大的能力。然而，当前基于ViT的方法利用最大池化来选择具有最高预测分数的补丁，以将补丁级别分类映射到图像级别一，这可能由于补丁的分类不准确而影响伪标签的质量。在本文中，我们介绍了一种基于 ViT 的新型 WSSS 方法，名为带有补丁对比学习的 top K pooling TKP PCL ，该方法采用 top K 池化层来减轻先前最大池化选择的局限性。还提出了补丁对比误差PCE来增强补丁嵌入，以进一步改善最终结果。

LICO: Explainable Models with Language-Image Consistency
Authors Yiming Lei, Zilong Li, Yangyang Li, Junping Zhang, Hongming Shan
自深度神经网络爆炸式增长以来，解释深度学习模型决策的研究一直在积极进行。最令人信服的解释方法之一是基于显着性的视觉解释，例如 Grad CAM，其中注意力图的生成仅取决于分类标签。尽管现有的解释方法可以提供可解释的决策线索，但由于来自一个热门标签的区分信息有限，它们通常会在图像和显着性图之间产生部分对应。本文开发了一种用于可解释图像分类的语言图像一致性模型，称为 LICO，通过以从粗到细的方式将可学习的语言提示与相应的视觉特征相关联。具体来说，我们首先通过最小化图像和语言特征分布之间的距离来建立粗略的全局流形结构对齐。然后，我们通过应用最佳传输 OT 理论来分配具有特定类别提示的局部特征图，从而获得细粒度的显着性图。在八个基准数据集上的广泛实验结果表明，所提出的 LICO 与 Grad CAM 等现有解释方法相结合，在生成更具可解释性的注意力图方面取得了显着改进。值得注意的是，LICO 提高了现有模型的分类性能，而在推理过程中没有引入任何计算开销。

OAAFormer: Robust and Efficient Point Cloud Registration Through Overlapping-Aware Attention in Transformer
Authors Junjie Gao, Qiujie Dong, Ruian Wang, Shuangmin Chen, Shiqing Xin, Changhe Tu, Wenping Wang
在点云配准领域，从粗到细的特征匹配范式因其令人印象深刻的性能而受到广泛关注。该范例首先涉及两步过程，即提取多级特征，然后将对应关系从粗级到精细级传播。尽管如此，这种范式表现出两个显着的局限性。首先，双 Softmax 操作的使用有可能促进超点之间的一对一对应，无意中排除了有价值的对应。这种倾向源于以下事实：源超级点通常保持与多个目标超级点的关联。其次，必须仔细检查点云之间的重叠区域，因为只有这些区域内的对应关系才能决定实际的变换。基于这些考虑，我们提出 em OAAFormer 来提高通信质量。一方面，我们引入了一种软匹配机制，促进潜在有价值的对应关系从粗略到精细的传播。此外，我们集成了重叠区域检测模块，以最大程度地减少不匹配。此外，我们在精细级别匹配阶段引入了具有线性复杂度的区域明智注意模块，旨在增强提取特征的判别能力。

AFLOW: Developing Adversarial Examples under Extremely Noise-limited Settings
Authors Renyang Liu, Jinhong Zhang, Haoran Li, Jin Zhang, Yuanyu Wang, Wei Zhou
大量研究表明，深度神经网络 DNN 很容易受到对抗性攻击。尽管最近在攻击成功率方面取得了显着进步，但大多数现有攻击方法产生的对抗性噪声对于人眼来说仍然过于明显，并且事实证明很容易被防御机制检测到。导致这些恶意示例无法有助于充分探索现有 DNN 的漏洞。因此，为了更好地揭示 DNN 的缺陷并进一步帮助增强其在噪声受限情况下的鲁棒性，迫切需要提出一种新的不显眼对抗性示例生成方法。为了弥补这一差距，我们提出了一种新颖的基于标准化流的端到端攻击框架，称为 AFLOW，以在严格的约束下合成难以察觉的对抗性示例。具体来说，AFLOW 不是通过添加噪声的方式，而是直接扰乱相应图像的隐藏表示来制作所需的对抗性示例。与现有方法相比，在三个基准数据集上的大量实验表明，AFLOW 构建的对抗样本在不可感知性、图像质量和攻击能力方面表现出优越性。

Automated Detection of Cat Facial Landmarks
Authors George Martvel, Ilan Shimshoni, Anna Zamansky
动物情感计算领域正在迅速兴起，其中面部表情分析是一个至关重要的方面。该领域的研究人员目前面临的最重大挑战之一是缺乏高质量、全面的数据集，无法开发面部表情分析模型。其中一种可能的方法是利用面部标志，这已经在人类和动物身上得到了证明。在本文中，我们提出了一个新颖的猫面部图像数据集，带有边界框注释和基于猫面部解剖学的 48 个面部标志。我们还介绍了一种基于卷积神经网络的地标检测模型，该模型使用放大集成方法。

SCME: A Self-Contrastive Method for Data-free and Query-Limited Model Extraction Attack
Authors Renyang Liu, Jinhong Zhang, Kwok Yan Lam, Jun Zhao, Wei Zhou
此前的研究表明，人工智能系统很容易受到对抗性攻击。其中，模型提取攻击通过在替代模型上生成对抗性示例来欺骗目标模型。这种攻击的核心是训练尽可能与目标模型相似的替代模型，其中模拟过程可以以数据依赖和数据无关的方式进行分类。与数据相关方法相比，无数据方法已被证明在现实世界中更实用，因为它使用合成数据来训练替代模型。然而，这些假数据的分布缺乏多样性，无法很好地检测目标模型的决策边界，导致模拟效果不理想。此外，这些无数据技术需要大量查询来训练替代模型，增加了时间和计算消耗以及暴露的风险。为了解决上述问题，本文提出了一种新颖的无数据模型提取方法，称为 SCME 自对比模型提取，该方法在合成假数据时考虑了类间和类内的多样性。此外，SCME引入了Mixup操作来增强假数据，可以有效地探索目标模型的决策边界，提高模拟能力。大量实验表明，所提出的方法可以产生多样化的假数据。

CBARF: Cascaded Bundle-Adjusting Neural Radiance Fields from Imperfect Camera Poses
Authors Hongyu Fu, Xin Yu, Lincheng Li, Li Zhang
当输入图像的相机姿势不完美时，现有的体积神经渲染技术（例如神经辐射场 NeRF）在合成高质量新颖视图时面临限制。为了解决这个问题，我们提出了一种新颖的 3D 重建框架，可以同时优化相机姿势，称为 CBARF Cascaded Bundle adjustment NeRF。简而言之，我们的框架以从粗到细的方式优化相机姿势，然后根据校正后的场景重建场景姿势。据观察，相机位姿的初始化对束调整 BA 的性能有显着影响。因此，我们在不同尺度上级联多个 BA 模块来逐步改善相机姿势。同时，我们制定了邻居替换策略来进一步优化每个阶段的BA结果。在此步骤中，我们引入了一种新颖的标准来有效识别估计不佳的相机姿势。然后我们用相邻相机的姿态替换它们，从而进一步消除相机姿态不准确的影响。一旦相机姿势得到优化，我们就会采用密度体素网格来生成新颖视图中的高质量 3D 重建场景和图像。

CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes
Authors Yulei Qin, Xingyu Chen, Yunhang Shen, Chaoyou Fu, Yun Gu, Ke Li, Xing Sun, Rongrong Ji
Webly 监督学习因其在无需手动注释的情况下大规模探索可公开访问的数据的有效性而引起了越来越多的关注。然而，大多数现有的网络数据集学习方法都面临着标签噪声的挑战，并且它们对各种噪声下的干净样本的假设有限。例如，通过查询虎猫（一种猫科动物）和鼓槌（一种乐器）检索到的网络图像几乎以老虎和鸡的图像为主，这加剧了细粒度视觉概念学习的挑战。在这种情况下，利用网络图像及其相关文本是对抗现实世界噪音的必要解决方案。在本文中，我们提出了跨模态对齐原型 CAPro，这是一个统一的原型对比学习框架，用于学习具有正确语义的视觉表示。一方面，我们利用源于类的独特概念定义的文本原型，通过文本匹配来选择干净的图像，从而消除视觉原型形成的歧义。另一方面，为了处理丢失和不匹配的噪声文本，我们利用视觉特征空间来完成和增强单个文本，然后改进文本匹配。这种语义对齐的视觉原型通过高质量样本进一步完善，并参与聚类正则化和噪声消除。此外，我们提出集体引导，以鼓励以字典查找的方式从外观相似的实例中更平滑、更明智地引用标签。 WebVision1k 和 NUS WIDE Web 上的大量实验表明，CAPR 在单标签和多标签场景下都能很好地处理现实噪声。 CAPro 实现了最先进的性能，并表现出开放集识别的鲁棒性。

Image Augmentation with Controlled Diffusion for Weakly-Supervised Semantic Segmentation
Authors Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao
弱监督语义分割 WSSS 旨在仅使用图像级标签训练分割模型，已引起广泛关注。现有方法主要侧重于使用可用图像及其图像级标签生成高质量的伪标签。然而，当可用数据集的大小有限时，伪标签的质量会显着降低。因此，在本文中，我们通过引入一种称为受控扩散图像增强 IACD 的新颖方法从不同的角度解决这个问题。该框架通过受控扩散生成不同的图像，有效地增强了现有的标记数据集，其中可用图像和图像级别标签作为控制信息。此外，我们还提出了一种高质量图像选择策略，以减轻扩散模型的随机性引入的潜在噪声。在实验中，我们提出的 IACD 方法明显超越了现有的最先进方法。

Prototype-oriented Unsupervised Change Detection for Disaster Management
Authors Youngtack Oh, Minseok Seo, Doyi Ki, Junghoon Seo
气候变化导致洪水和飓风等自然灾害发生频率增加。这强调了有效灾害监测的重要性。为此，遥感界探索了变化检测方法。这些方法主要分为监督技术和无监督技术，前者产生精确的结果，但标记成本较高，后者消除了标记的需要，但涉及复杂的超参数调整。为了应对这些挑战，我们提出了一种新颖的无监督变更检测方法，名为面向灾难管理 PUCD 的面向原型的无监督变更检测。 PUCD 通过基础模型比较事件前、事件后和面向原型的变更合成图像的特征来捕获变更，并使用分段任何模型 SAM 细化结果。虽然PUCD是一种无监督的变化检测，但它不需要复杂的超参数调整。

MoEmo Vision Transformer: Integrating Cross-Attention and Movement Vectors in 3D Pose Estimation for HRI Emotion Detection
Authors David C. Jeong, Tianma Shen, Hongji Liu, Raghav Kapoor, Casey Nguyen, Song Liu, Christopher A. Kitts
情绪检测对智能人机交互 HRI 提出了挑战。用于情绪检测的基础深度学习技术受到信息受限的数据集或模型的限制，这些数据集或模型缺乏学习输入数据元素之间交互所需的复杂性，例如不同上下文中人类情绪的差异。在当前的工作中，我们引入了 1 MoEmo Motion to Emotion，这是一种交叉注意力视觉转换器 ViT，用于基于跨各种环境的 3D 人体姿势估计来检测机器人系统中的人类情绪，以及 2 一个提供人体运动和全身视频的数据集。基于人类手势和环境背景的相应情感标签。与现有方法相比，我们的方法通过对提取的全身人体手势姿势的运动向量和环境背景的特征图使用交叉注意力，有效地利用了手势的运动向量和环境背景之间的微妙联系。我们实现了交叉注意融合模型，将运动向量和环境上下文组合成联合表示，以导出情感估计。

New Benchmarks for Asian Facial Recognition Tasks: Face Classification with Large Foundation Models
Authors Jinwoo Seo, Soora Choi, Eungyeom Ha, Beomjune Kim, Dongbin Na
人脸分类系统是正确识别个人身份的重要工具。本文介绍了一个名为 KoIn 的新的大规模韩国影响者数据集。我们提供的数据集包含许多韩国名人在各种环境中的真实世界照片，其中可能包含舞台灯光、伴舞者和背景物体。这些不同的图像可用于训练对 K 个影响者进行分类的分类模型。我们提出的数据集中的大部分图像都是从 Instagram 等社交网络服务 SNS 收集的。我们的数据集 KoIn 包含来自 100 多个韩国名人阶层的超过 100,000 张影响者照片。此外，我们的数据集提供了额外的硬案例样本，例如包含戴着面具和帽子的人脸的图像。我们注意到，硬案例样本对于评估分类系统的稳健性非常有用。我们利用各种分类模型广泛地进行了多次实验，以验证我们提出的数据集的有效性。具体来说，我们证明了最新的 SOTA 基础架构在我们提出的数据集上进行训练时表现出不错的分类性能。在本文中，当我们在所提出的数据集 KoIn 的正常情况下微调基础模型时，我们还分析了大规模基础模型针对困难情况样本的鲁棒性性能。

Beyond Segmentation: Road Network Generation with Multi-Modal LLMs
Authors Sumedh Rasal, Sanjay Kumar Boddhu
本文介绍了一种通过利用多模式大语言模型法学硕士来生成道路网络的创新方法。我们的模型专门设计用于处理道路布局的航拍图像，并在输入图像中生成详细的、可导航的道路网络。我们系统的核心创新在于大语言模型采用独特的训练方法来生成道路网络作为其输出。

Staged Depthwise Correlation and Feature Fusion for Siamese Object Tracking
Authors Dianbo Ma, Jianqiang Xiao, Ziyan Gao, Satoshi Yamane
在这项工作中，我们提出了一种新颖的分阶段深度相关和特征融合网络，称为 DCFFNet，以进一步优化视觉跟踪的特征提取。我们在暹罗网络架构上构建深度跟踪器，该架构以端到端的方式在多个大规模数据集上从头开始进行离线训练。该模型包含一个核心组件，即深度相关性和特征融合模块相关性融合模块有助于模型利用上下层的多级特征和多通道语义的集合来学习特定对象的一组最佳权重在同一层上。我们将修改后的 ResNet 50 与所提出的相关融合层相结合，构成我们模型的特征提取器。在训练过程中，我们发现模型的训练变得更加稳定，这得益于相关融合模块。为了对性能进行全面评估，我们在流行的基准测试上实施了我们的跟踪器，包括 OTB100、VOT2018 和 LaSOT。

AugUndo: Scaling Up Augmentations for Unsupervised Depth Completion
Authors Yangchao Wu, Tian Yu Liu, Hyoungseob Park, Stefano Soatto, Dong Lao, Alex Wong
无监督深度补全方法是通过最小化稀疏深度和图像重建误差来训练的。来自重采样、强度饱和和遮挡的块伪影是常见数据增强方案的许多不良副产品之一，这些副产品影响图像重建质量，从而影响训练信号。因此，对其他视觉任务中的训练流程至关重要的典型图像增强功能，除了小的图像强度变化和翻转之外，其用途有限。由于强度变换改变了 3D 场景的比例，并且几何变换可能会在重采样期间减少稀疏点，因此稀疏深度模态的出现甚至更少。我们提出了一种方法，可以解锁各种以前不可行的几何增强，以实现无监督的深度完成。这是通过反转或撤消对输出深度坐标的几何变换，将深度图扭曲回原始参考帧来实现的。这使得能够使用原始图像和稀疏深度图来计算重建损失，从而消除了对增强输入进行简单损失计算的陷阱。这种简单而有效的策略使我们能够扩大增强规模以提高性能。

Efficient and Effective Multi-View Subspace Clustering for Large-scale Data
Authors Yuxiu Lin, Hui Liu, Ren Wang, Gongguan Chen, Caiming Zhang
最近的多视图子空间聚类利用深度网络取得了令人印象深刻的结果，其中自我表达相关性通常由完全连接的 FC 层建模。然而，它们仍然受到两个限制，即正在探索从多个视图中提取统一的表示，同时满足最小充分性和可辨别性。 ii FC 层的参数规模与样本数量成二次方，导致较高的时间和内存成本，从而显着降低了其在大规模数据集中的可行性。鉴于此，我们提出了一种新颖的深层框架，称为高效且有效的大规模多视图子空间聚类 E 2 LMVSC 。具体来说，为了提高统一表示的质量，设计了软聚类分配相似性约束，用于显式解耦多视图数据中的一致、互补和多余信息。然后，根据信息瓶颈理论，获得足够但最小的统一特征表示。此外，E 2 LMVSC 采用最大编码率降低原则来促进统一表示内的簇内聚合和簇间可分离性。最后，通过关系度量网络而不是参数化 FC 层来学习自表达系数，以提高效率。

LOVECon: Text-driven Training-Free Long Video Editing with ControlNet
Authors Zhenyi Liao, Zhijie Deng
利用预先训练的条件扩散模型进行视频编辑而无需进一步调整，由于其在电影制作、广告等方面的前景而受到越来越多的关注。然而，这一领域的开创性作品在生成长度、时间连贯性或对源视频的保真度方面存在不足。本文旨在弥合这一差距，为训练基于长视频编辑的自由扩散模型建立一个简单有效的基线。正如现有技术所建议的，我们在 ControlNet 上构建管道，它擅长基于文本提示的各种图像编辑任务。为了打破有限计算内存造成的长度限制，我们将长视频分割成连续的窗口，并开发一种新颖的跨窗口注意机制，以确保全局风格的一致性并最大化窗口之间的平滑度。为了实现更准确的控制，我们通过 DDIM 反演从源视频中提取信息，并将结果集成到各代的潜在状态中。我们还采用了视频帧插值模型来减轻帧级闪烁问题。大量的实证研究验证了我们的方法相对于跨场景的竞争基线的卓越功效，包括前景对象属性的替换、风格转移和背景替换。特别是，我们的方法可以根据用户要求编辑多达 128 帧的视频。

New Advances in Body Composition Assessment with ShapedNet: A Single Image Deep Regression Approach
Authors Navar Medeiros M. Nascimento, Pedro Cavalcante de Sousa Junior, Pedro Yuri Rodrigues Nunes, Suane Pires Pinheiro da Silva, Luiz Lannes Loureiro, Victor Zaban Bittencourt, Valden Luis Matos Capistrano Junior, Pedro Pedrosa Rebou as Filho
我们引入了一种称为 ShapedNet 的新技术来增强身体成分评估。该方法采用深度神经网络，能够估计体脂百分比 BFP、执行个体识别并使用单张照片进行定位。 ShapedNet 的准确性通过与金标准方法（双能 X 射线吸收测定法 DXA）的全面比较得到验证，该方法利用了 1273 名不同年龄、性别和 BFP 水平的健康成年人。结果表明，ShapedNet 在基于 19.5 最先进计算机视觉的身体脂肪估计方法中表现优于 19.5，平均绝对百分比误差 MAPE 为 4.91，平均绝对误差 MAE 为 1.42。该研究评估了基于性别的方法和性别中立的方法，后者展示了优越的性能。该方法估计 BFP 的置信度为 95，误差范围为 4.01 至 5.81。

What Do Deep Saliency Models Learn about Visual Attention?
Authors Shi Chen, Ming Jiang, Qi Zhao
近年来，深度显着性模型在预测人类视觉注意力方面取得了重大进展。然而，由于深度神经网络的不透明性质，其成功背后的机制在很大程度上仍然无法解释。在本文中，我们提出了一种新颖的分析框架，揭示了显着性模型学习的隐式特征，并提供了其对显着性预测的贡献的原则性解释和量化。我们的方法将这些隐式特征分解为可解释的基数，这些基数与语义属性明确一致，并将显着性预测重新表述为连接基数和显着性的概率图的加权组合。通过应用我们的框架，我们从各个角度进行广泛的分析，包括语义的正负权重、训练数据和架构设计的影响、微调的渐进影响以及最先进的深度显着性模型的常见故障模式。此外，我们通过探索各种应用场景中的视觉注意力特征来证明我们框架的有效性，例如自闭症谱系障碍患者的非典型注意力、对情绪引发刺激的注意力以及注意力随时间的演变。

Point-DynRF: Point-based Dynamic Radiance Fields from a Monocular Video
Authors Byeongjun Park, Changick Kim
动态辐射场已成为从单目视频生成新颖视图的一种有前途的方法。然而，以前的方法仅在相邻输入帧之间强制动态辐射场的几何一致性，使得难以表示全局场景几何形状并且在时空远离输入相机轨迹的视点处退化。为了解决这个问题，我们引入了基于点的动态辐射场 textbf Point DynRF ，这是一种新颖的框架，其中全局几何信息和体积渲染过程分别由神经点云和动态辐射场进行训练。具体来说，我们直接从几何代理重建神经点云，并使用我们提出的损失优化辐射场和几何代理，使它们能够相互补充。

Dimma: Semi-supervised Low Light Image Enhancement with Adaptive Dimming
Authors Wojciech Koz owski, Micha Szachniewicz, Micha Stypu kowski, Maciej Zi ba
由于相机处理变化以及在地面真实照明条件下获取照片的限制，增强低光图像的同时保持自然色彩是一个具有挑战性的问题。后者是监督方法的关键因素，该方法在配对数据集上取得良好的结果，但不能很好地处理域外数据。另一方面，无监督方法虽然能够泛化，但通常会产生较低的质量增强。为了填补这一空白，我们提出了 Dimma，这是一种半监督方法，它通过利用一小组图像对来复制该特定相机在极端照明条件下拍摄的场景，从而与任何相机保持一致。我们通过引入卷积混合密度网络来实现这一目标，该网络根据照明差异生成场景的扭曲颜色。此外，我们的方法可以精确分级调光系数，从而在低光图像增强过程中调整亮度级别时提供广泛的控制和灵活性。为了进一步提高结果的质量，我们引入了基于条件 UNet 的架构。用户提供的亮度值用作生成具有所需亮度的图像的条件输入。与完全监督的方法相比，我们仅使用少量图像对的方法就取得了有竞争力的结果。

Time-based Mapping of Space Using Visual Motion Invariants
Authors Juan D. Yepes, Daniel Raviv
本文重点研究基于视觉运动的不变量，这些不变量会产生 3D 点的表示，其中静止环境保持不变，从而确保形状恒定性。即使图像由于相机运动而不断变化，也可以实现这一点。利用与几何 3D 不变量相关的可测量光流的非线性函数来创建新颖的表示。我们将由此产生的基于光流的不变量称为“时间间隙”和众所周知的“接触时间 TTC”。由于这些不变量随着时间的推移保持恒定，因此检测不符合预期恒定性的移动点变得很简单。我们展示了相对于 3D 对象移动的相机的模拟、直线移动相机捕获的投影图像的快照，以及随着时间的推移，该对象在新域中看起来没有变化的情况。此外，基于 Unity 的模拟演示了投影 3D 场景的颜色编码变换，说明了如何轻松识别移动物体。这种表示很简单，依赖于简单的光流函数。它只需要一台相机，并且不需要确定相机速度矢量的大小。

Real-Time Traffic Sign Detection: A Case Study in a Santa Clara Suburban Neighborhood
Authors Harish Loghashankar, Hieu Nguyen
该研究项目旨在使用 YOLOv5 架构开发实时交通标志检测系统，并将其部署在郊区驾驶期间进行高效的交通标志识别。该项目的主要目标是在不同的交通标志图像数据集上训练 YOLOv5 模型，并将该模型部署在能够实时推理的合适硬件平台上。该项目将涉及收集交通标志图像的综合数据集。通过利用训练有素的 YOLOv5 模型，系统将从车内仪表板上的实时摄像头检测交通标志并进行分类。已部署系统的性能将根据其检测交通标志的准确性、实时处理速度和整体可靠性进行评估。在郊区社区的案例研究中，该系统在检测交通标志方面表现出高达 96 的准确度。

Detecting Moving Objects Using a Novel Optical-Flow-Based Range-Independent Invariant
Authors Daniel Raviv, Juan D. Yepes, Ayush Gowda
本文重点介绍一种在相机运动过程中检测运动物体的新方法。我们提出了一种基于光流的变换，无论时刻、3D 点范围以及相机的速度如何，都能产生一致的 2D 不变图像输出。换句话说，这种转换生成的查找图像尽管 3D 场景和相机运动的投影发生变化，但仍保持不变。在新领域中，偏离预定义查找图像值的 3D 点的投影可以清楚地识别为相对于静止 3D 环境移动，从而使它们可无缝检测。该方法不需要预先了解相机的运动方向或速度，也不需要 3D 点范围信息。它非常适合实时并行处理，使其非常实用。我们通过模拟和实验验证了新域的有效性，证明了其在涉及直线相机运动的场景中的鲁棒性，无论是在模拟中还是在现实世界数据中。

Deep Neural Networks Can Learn Generalizable Same-Different Visual Relations
Authors Alexa R. Tartaglini, Sheridan Feucht, Michael A. Lepori, Wai Keen Vong, Charles Lovering, Brenden M. Lake, Ellie Pavlick
尽管深度神经网络可以在许多对象识别基准上实现人类水平的性能，但先前的工作表明这些相同的模型无法学习简单的抽象关系，例如确定两个对象是否相同或不同。之前的大部分工作都集中在训练卷积神经网络来对两个相同或两个不同抽象形状的图像进行分类，测试分布刺激内的泛化。在本文中，我们全面研究深度神经网络是否可以使用各种架构、预训练形式和微调数据集来获取和概括分布内外相同的不同关系。我们发现某些预训练的 Transformer 可以学习相同的不同关系，该关系以近乎完美的精度概括到分布外的刺激。此外，我们发现对缺乏纹理或颜色的抽象形状进行微调可以提供最强的分布泛化能力。

Hawkeye: A PyTorch-based Library for Fine-Grained Image Recognition with Deep Learning
Authors Jiabei He, Yang Shen, Xiu Shen Wei, Ye Wu
细粒度图像识别 FGIR 是计算机视觉和多媒体领域的一项基本且具有挑战性的任务，在智能经济和工业互联网应用中发挥着至关重要的作用。然而，缺乏涵盖 FGIR 各种范式的统一开源软件库对该领域的研究人员和从业者构成了重大挑战。为了解决这一差距，我们推出了 Hawkeye，这是一个基于 PyTorch 的 FGIR 深度学习库。 Hawkeye采用模块化架构设计，强调高质量代码和人类可读的配置，为FGIR任务提供全面的解决方案。在 Hawkeye 中，我们实现了 16 种最先进的细粒度方法，涵盖 6 种不同的范例，使用户能够探索 FGIR 的各种方法。据我们所知，Hawkeye 代表了第一个专门用于 FGIR 的基于 PyTorch 的开源库。

Learning Unified Representations for Multi-Resolution Face Recognition
Authors Hulingxiao He, Wu Yuan, Yidian Huang, Shilong Zhao, Wen Yuan, Hanqing Li
在这项工作中，我们提出了 Branch to Trunk 网络 BTNet，这是一种用于多分辨率人脸识别的表示学习方法。它由一个主干网络TNet（即统一编码器）和多个分支网络BNet（即解析适配器）组成。根据输入，使用特定分辨率的 BNet，并将输出作为特征图植入 TNet 特征金字塔中具有相同分辨率的层。由于重新缩放（尤其是上采样）引入的插值误差在输入上得到了减轻，因此微小面孔的可辨别性得到了显着提高。通过分支蒸馏和向后兼容训练，BTNet 将有区别的高分辨率信息传输到多个分支，同时保证表示兼容性。我们的实验证明了人脸识别基准测试的强大性能，无论是多分辨率身份匹配还是特征聚合，计算量和参数存储都少得多。我们在具有挑战性的 QMUL SurvFace 1 N 人脸识别任务上建立了新的技术水平。

Does CLIP's Generalization Performance Mainly Stem from High Train-Test Similarity?
Authors Prasanna Mayilvahanan, Thadd us Wiedemer, Evgenia Rusak, Matthias Bethge, Wieland Brendel
像 CLIP 这样的基础模型经过数亿个样本的训练，可以轻松地推广到新的任务和输入。开箱即用的 CLIP 在各种非分布 OOD 基准测试中显示了出色的零样本和少量样本功能，之前的工作主要归因于当今大型且全面的训练数据集（如 LAION）。然而，诸如分布泛化之类的术语对 CLIP 的意义有多大是值得怀疑的，因为像 LAION 这样的网络规模数据集似乎只包含许多与最初为 ImageNet 设计的常见 OOD 基准类似的样本。为了测试这个假设，我们在修剪后的 LAION 分割上重新训练 CLIP，这些分割复制了 ImageNet 的训练测试与常见 OOD 基准的相似性。虽然我们观察到某些基准测试的性能有所下降，但令人惊讶的是，CLIP 的整体性能仍然很高。这表明训练测试的高相似性不足以解释 CLIP 的 OOD 性能，训练数据的其他属性必须驱动 CLIP 学习更通用的表示。

UNIQA: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment
Authors Yi Ke Yun, Weisi Lin
人类视觉系统 HVS 能够有效地区分低质量图像，因为它能够感知失真程度和由此产生的语义影响。先前的研究重点是分别开发基于原始图像存在和不存在的专用网络，这导致应用范围有限，并且从 NR 切换到 FR IQA 时可能会出现性能不一致。此外，大多数方法严重依赖于通过差异图或加权特征进行空间失真建模，这可能无法很好地捕获失真与其引起的语义影响之间的相关性。为此，我们的目标是通过语义影响建模为全参考 FR 和无参考 NR IQA 设计一个统一的网络。具体来说，我们采用编码器从输入图像中提取多级特征。然后，提出了分层自注意力 HSA 模块作为 FR 和 NR 输入的通用适配器，以对每个编码器阶段的空间失真水平进行建模。此外，考虑到失真会污染编码器阶段并以不同方式损害图像语义，提出了跨尺度交叉注意力 CSCA 模块来检查浅层失真和深层失真之间的相关性。通过采用 HSA 和 CSCA，所提出的网络可以有效地执行 FR 和 NR IQA。

Scene Text Recognition Models Explainability Using Local Features
Authors Mark Vincent Ty, Rowel Atienza
可解释的人工智能 XAI 是关于人类如何能够理解模型预测的原因的研究。在这项工作中，感兴趣的问题是场景文本识别 STR 可解释性，使用 XAI 来理解 STR 模型预测的原因。最近关于STR的XAI文献仅提供了简单的分析，并没有充分探索其他XAI方法。在这项研究中，我们专门研究数据可解释性框架，称为基于归因的方法，它解释深度学习模型中输入数据的重要部分。然而，将它们整合到 STR 中会产生不一致且无效的解释，因为它们只能解释全局背景下的模型。为了解决这个问题，我们提出了一种新方法 STRExp，来考虑局部解释，即单个字符预测解释。

Towards End-to-End Unsupervised Saliency Detection with Self-Supervised Top-Down Context
Authors Yicheng Song, Shuyong Gao, Haozhe Xing, Yiting Cheng, Yan Wang, Wenqiang Zhang
无监督显着对象检测旨在不使用监督信号来检测显着对象，从而消除手动标记显着对象的繁琐任务。为了提高训练效率，USOD 的端到端方法已被提议作为一种有前途的替代方案。然而，当前的解决方案严重依赖于嘈杂的手工标签，无法从深层特征中挖掘丰富的语义信息。在本文中，我们通过自上而下的上下文提出了一种自监督的端到端显着对象检测框架。具体来说，在对比学习的推动下，我们利用最深层特征的自定位来构建位置图，然后利用该位置图来学习最具指导性的分割指导。进一步考虑到最深层特征中缺乏详细信息，我们利用细节增强细化器模块来丰富位置标签的细节。此外，我们观察到，由于缺乏监督，当前的无监督显着性模型倾向于检测在相应场景的其他一些样本中显着的非显着对象。为了解决这个普遍存在的问题，我们设计了一种新颖的无监督非显着抑制 UNSS 方法，开发了忽略非显着对象的能力。对基准数据集的大量实验表明，我们的方法在最近的端到端方法和大多数多阶段解决方案中实现了领先的性能。

TS-ENAS:Two-Stage Evolution for Cell-based Network Architecture Search
Authors Juan Zou, Shenghong Wu, Yizhang Xia, Weiwei Jiang, Zeping Wu, Jinhua Zheng
神经网络架构搜索为网络结构的自动设计提供了解决方案。然而，直接搜索整个网络架构是很困难的。虽然使用堆叠单元搜索神经网络结构是降低搜索复杂度的有效方法，但由于层数、单元和连接方法是固定的，这些方法无法找到全局最优的神经网络结构。在本文中，我们提出了一种基于单元的网络架构搜索TS ENAS的两阶段演进，包括基于堆叠单元的第一阶段搜索和调整这些单元的第二阶段。在我们的算法中，设计了一种新的基于细胞的搜索空间和有效的两阶段编码方法来表示细胞和神经网络结构。此外，设计了基于单元的权重继承策略来初始化网络的权重，这显着减少了算法的运行时间。所提出的方法在四个图像分类数据集 Fashion MNIST、CIFAR10、CIFAR100 和 ImageNet 上进行了广泛的测试和比较，并与包括手工设计网络和 NAS 网络在内的 22 种最先进算法进行了比较。

OBSUM: An object-based spatial unmixing model for spatiotemporal fusion of remote sensing images
Authors Houcai Guo, Dingqi Ye, Lorenzo Bruzzone
时空融合旨在提高遥感图像的空间和时间分辨率，从而促进精细空间尺度的时间序列分析。然而，有几个重要问题限制了当前时空融合方法的应用。首先，大多数时空融合方法都是基于像素级计算，忽略了地表有价值的物体级信息。此外，许多现有方法无法准确检索基准日期的可用高分辨率图像与预测图像之间的强烈时间变化。本研究提出了一种基于对象的空间分离模型OBSUM，该模型结合了基于对象的图像分析和空间分离，以克服上述两个问题。 OBSUM 由一个预处理步骤和三个融合步骤组成，即对象级分解、对象级残差补偿和像素级残差补偿。可以仅使用基准日期的一张精细图像和预测日期的一张粗略图像来应用 OBSUM，而不需要基准日期的粗略图像。 OBSUM 的性能与五种代表性的时空融合方法进行了比较。实验结果表明，OBSUM 在时间序列的准确性指数和视觉效果方面均优于其他方法。此外，OBSUM还在两个典型的遥感应用中取得了令人满意的结果。

Foundation Ark: Accruing and Reusing Knowledge for Superior and Robust Performance
Authors DongAo Ma, Jiaxuan Pang, Michael B. Gotway, Jianming Liang
如今深度学习提供了专家级、有时甚至是超级专家级的性能，但实现这样的性能需要大量带注释的数据进行训练，例如，Google 专有的 CXR 基础模型 CXR FM 是在 821,544 个带标签且大部分是私人胸部 X 射线 CXR 上进行训练的。医学成像中的大量数据集是公开可用的，但专家标签中的数据集各自较小且异构。我们设想一个强大而稳健的基础模型，可以通过聚合大量小型公共数据集来进行训练。为了实现这一愿景，我们开发了 Ark，一个可以从各种数据集中的异构专家注释中积累和重用知识的框架。作为概念证明，我们通过合并包括 ChestX ray14、CheXpert、MIMIC II 和 VinDr CXR 在内的多个数据集，分别在 335,484 和 704,363 个 CXR 上训练了两个 Ark 模型，并在涵盖分类和分类的广泛成像任务上对它们进行了评估。通过微调、线性探测和性别偏见分析进行细分，并展示了我们的 Ark 相对于 SOTA 完全自监督基线和 Google 专有的 CXR FM 的卓越和稳健的性能。这种性能的提高归功于我们简单而有力的观察，即聚合大量公共数据集使患者群体多样化并从不同的专家那里积累知识，产生前所未有的性能并节省注释成本。

JM3D & JM3D-LLM: Elevating 3D Representation with Joint Multi-modal Cues
Authors Jiayi Ji, Haowei Wang, Changli Wu, Yiwei Ma, Xiaoshuai Sun, Rongrong Ji
3D 表示学习在计算机视觉、自动驾驶和机器人技术中至关重要，其重要性与日俱增，这一点显而易见。然而，直接采用将 2D 对齐策略转移到 3D 领域的流行趋势遇到了三个不同的挑战 1 信息退化这是由于 3D 数据仅与单视图 2D 图像和通用文本对齐，忽略了多视图的需要。图像和详细的子类别文本。 2 协同作用不足这些策略将 3D 表示分别与图像和文本特征对齐，阻碍了 3D 模型的整体优化。 3 未充分利用学习到的表示中固有的细粒度信息通常没有得到充分利用，这表明潜在的细节损失。为了解决这些问题，我们引入了 JM3D，一种集成点云、文本和图像的综合方法。主要贡献包括结构化多模态组织器 SMO（通过多种视图和分层文本丰富视觉语言表示）以及联合多模态对齐 JMA（将语言理解与视觉表示相结合）。我们的高级模型 JM3D LLM 通过高效的微调将 3D 表示与大型语言模型结合起来。对 ModelNet40 和 ScanObjectNN 的评估证实了 JM3D 的优越性。 JM3D LLM 的卓越性能进一步强调了我们表示转移方法的有效性。

Perception Reinforcement Using Auxiliary Learning Feature Fusion: A Modified Yolov8 for Head Detection
Authors Jiezhou Chen, Guankun Wang, Weixiang Liu, Xiaopin Zhong, Yibin Tian, ZongZe Wu
头部检测提供行人分布信息，这对于场景统计分析、交通管理、风险评估和预警至关重要。然而，现实世界中场景的复杂性和大规模变化使得准确检测变得更加困难。因此，我们提出了一种改进的 Yolov8，它通过增强目标感知来提高头部检测性能。由 LSTM 和卷积块组成的辅助学习特征融合 ALFF 模块用作辅助任务，帮助模型感知目标。此外，我们在Distribution Focal Loss中引入了Noise Calibration，以方便模型拟合并提高检测的准确性。考虑到头部检测任务的高精度和高速度的要求，我们的方法采用两种骨干网，即Yolov8n和Yolov8m。

Exploring the Design Space of Diffusion Autoencoders for Face Morphing
Authors Zander Blasingame, Chen Liu
扩散自动编码器创建的面部变形是最近的一项创新，这种方法的设计空间尚未得到很好的探索。

Unified High-binding Watermark for Unconditional Image Generation Models
Authors Ruinan Ma, Yu an Tan, Shangbo Wu, Tian Chen, Yajie Wang, Yuanzhang Li
深度学习技术已经实现了许多无条件图像生成UIG模型，如GAN、Diffusion模型等，这些模型产生的极其逼真的图像也称为AI生成内容，简称AIGC，带来了数据溯源等知识产权保护的迫切需求以及版权认证。攻击者可以窃取目标模型的输出图像，并将其用作训练数据的一部分来训练私有代理 UIG 模型。 UIG模型的实现机制多样且复杂，目前尚无统一有效的保护和验证方法。为了解决这些问题，我们提出了一种对此类模型具有高约束力的两阶段统一水印验证机制。在第一阶段，我们使用编码器将水印图像无形地写入原始AIGC工具的输出图像中，并通过相应的解码器反向提取水印图像。第二阶段，我们设计了解码器微调流程，微调后的解码器能够对可疑模型是否窃取了原始AIGC工具数据做出正确的判断。实验表明，我们的方法可以在仅使用模型输出图像的情况下以几乎为零的误报率完成验证工作。

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning
Authors Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny
大型语言模型已经显示出其作为各种语言相关应用程序的通用接口的卓越功能。受此启发，我们的目标是建立一个统一的界面来完成许多视觉语言任务，包括图像描述、视觉问答和视觉基础等。挑战在于使用单一模型通过简单的多模态指令有效地执行不同的视觉语言任务。为了实现这一目标，我们引入了 MiniGPT v2，这是一个可以被视为统一接口的模型，可以更好地处理各种视觉语言任务。我们建议在训练模型时对不同任务使用唯一标识符。这些标识符使我们的模型能够毫不费力地更好地区分每个任务指令，并提高每个任务的模型学习效率。经过三阶段训练后，实验结果表明，与其他视觉语言通才模型相比，MiniGPT v2 在许多视觉问答和视觉基础基准上取得了强劲的性能。

Plug-and-Play Feature Generation for Few-Shot Medical Image Classification
Authors Qianyu Guo, Huifang Du, Xing Jia, Shuyong Gao, Yan Teng, Haofen Wang, Wenqiang Zhang
在训练数据有限的情况下，少数样本学习 FSL 在增强医学图像分类的模型泛化性和实用性方面具有巨大的潜力，但由于训练样本稀缺导致的分布偏差，它仍然面临分类器训练中严重过拟合的挑战。为了解决这个问题，我们提出了 MedMFG，一种灵活且轻量级的即插即用方法，旨在从有限的样本中生成足够的类别独特特征。具体来说，MedMFG首先重新表示有限的原型，为更重要的信息特征分配更高的权重。然后，原型被变异地生成丰富的有效特征。最后，将生成的特征和原型结合在一起来训练更通用的分类器。实验表明，MedMFG 在涉及从自然图像到医学图像以及具有不同病变的医学图像的过渡的跨域基准上优于以前最先进的方法。值得注意的是，与几个基准相比，我们的方法实现了 10 多项性能改进。

Towards More Accurate Diffusion Model Acceleration with A Timestep Aligner
Authors Mengfei Xia, Yujun Shen, Changsong Lei, Yu Zhou, Ran Yi, Deli Zhao, Wenping Wang, Yong jin Liu
扩散模型被制定为使用数千个去噪步骤生成图像，通常推理速度较慢。现有的加速算法通过跳过大多数步骤来简化采样，但性能却显着下降。通过将扩散模型的生成视为离散积分过程，我们认为质量下降的部分原因是对时间步间隔应用了不准确的积分方向。为了纠正这个问题，我们提出了一种时间步对齐器，它有助于以最小的成本找到特定间隔的更准确的积分方向。具体来说，在每个去噪步骤中，我们通过在新的时间步长上调节网络来替换原始参数化，该时间步长是通过将采样分布与真实分布对齐而获得的。大量的实验表明，我们的插件设计可以有效地进行训练，并提高各种最先进的加速方法的推理性能，特别是当去噪步骤很少时。例如，当在流行的 LSUN Bedroom 数据集上使用 10 个去噪步骤时，我们只需采用我们的方法来获得更合适的时间步长集，即可将 DDIM 的 FID 从 9.65 提高到 6.07。

MAC: ModAlity Calibration for Object Detection
Authors Yutian Lei, Jun Liu, Dong Huang
深度神经网络 DNN 在 RGB 输入感知任务上取得的巨大成功，为非 RGB 输入感知任务（例如从无线信号、激光雷达扫描和红外图像中进行物体检测）开辟了无限的可能性。与 RGB 输入源模态模型的成熟开发流程相比，从头开始开发非 RGB 输入目标模态模型对模态特定网络设计训练技巧和目标模态注释中的劳动提出了巨大的挑战。在本文中，我们提出了 ModAlity Calibration MAC，这是一种有效的管道，用于校准在 RGB 源模态上开发的 DNN 对象检测模型的目标模态输入。我们通过在源模态模型之前添加一个小型校准器模块来构建目标模态输入模型，并引入 MAC 训练技术对校准器进行密集监督。通过利用从源模态模型合成的 1 个先验知识和 2 个配对的目标、零手动注释的源数据，我们的目标模态模型达到了与需要 100 个手动注释的基线模型相当或更好的指标。

PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via Denoised Score Distillation
Authors Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu
零镜头文本到 3D 人类生成的最新进展是突破性的，它采用了先验的人类模型，例如 SMPL 或分数蒸馏采样 SDS 以及预先训练的文本到图像扩散模型。然而，SDS 在弱扩散引导下可能会提供不准确的梯度方向，因为它往往会产生过度平滑的结果并生成与详细网格几何形状不一致的体纹理。因此，直接利用现有策略将高保真文本转换为 3D 人体纹理具有挑战性。在这项工作中，我们提出了一个名为 PaintHuman 的模型来解决两个方面的挑战。我们首先提出了一种新颖的评分函数，去噪评分蒸馏 DSD，它通过引入负梯度分量直接修改 SDS，以迭代校正梯度方向并生成高质量纹理。此外，我们使用深度图作为几何指导，以确保纹理在语义上与人体网格表面对齐。为了保证渲染结果的质量，我们采用几何感知网络来预测表面材质并渲染逼真的人体纹理。

Pairwise Similarity Learning is SimPLE
Authors Yandong Wen, Weiyang Liu, Yao Feng, Bhiksha Raj, Rita Singh, Adrian Weller, Michael J. Black, Bernhard Sch lkopf
在本文中，我们关注一个普遍但重要的学习问题，即成对相似性学习 PSL 。 PSL 涵盖了广泛的重要应用，例如开放集人脸识别、说话人验证、图像检索和人员重新识别。 PSL 的目标是学习成对相似性函数，为正对（即具有相同标签的一对样本）分配比负对（即一对具有不同标签的样本）更高的相似性分数。我们首先确定 PSL 的一个关键需求，然后讨论现有方法如何实现这一需求。然后，我们提出了一种令人惊讶的简单无代理方法，称为 SimPLE，它既不需要特征代理归一化，也不需要角度裕度，但能够在开放集识别中很好地泛化。我们将所提出的方法应用于三个具有挑战性的 PSL 任务：开放集人脸识别、图像检索和说话人验证。

Tackling Heterogeneity in Medical Federated learning via Vision Transformers
Authors Erfan Darzi, Yiqing Shen, Nanna M. Sijtsema, P.M.A van Ooijen
基于优化的正则化方法可以有效解决医疗联合学习中数据异构性带来的挑战，特别是在提高代表性不足的客户的绩效方面。然而，这些方法通常会导致整体模型精度较低和收敛速度较慢。在本文中，我们证明使用 Vision Transformers 可以显着提高代表性不足的客户的绩效，而不会在总体准确性方面做出重大权衡。

MEMTRACK: A Deep Learning-Based Approach to Microrobot Tracking in Dense and Low-Contrast Environments
Authors Medha Sawhney, Bhas Karmarkar, Eric J. Leaman, Arka Daw, Anuj Karpatne, Bahareh Behkam
考虑到微型机器人的微小尺寸和高速度，跟踪微型机器人具有挑战性。随着该领域朝着开发用于生物医学应用的微型机器人以及在生理相关介质（例如胶原蛋白）中进行机械研究的方向发展，由于特征尺寸和形状与微型机器人相当的密集周围环境加剧了这一挑战。在此，我们报告了运动增强型多级跟踪器 MEMTrack，这是一个强大的管道，用于使用合成运动特征、基于深度学习的对象检测以及带有跟踪插值的修改后的简单在线和实时跟踪 SORT 算法来检测和跟踪微型机器人。我们的对象检测方法根据对象的运动模式结合了不同的模型。我们在胶原组织模型中使用细菌微电机训练和验证我们的模型，并在胶原和水介质中对其进行测试。我们证明，MEMTrack 甚至可以准确跟踪熟练的人类注释者遗漏的最具挑战性的细菌，在胶原蛋白中分别实现 77 和 48，在液体介质中分别实现 94 和 35 的精确度和召回率。此外，我们表明 MEMTrack 可以量化平均细菌速度，与费力生成的手动跟踪数据没有统计上的显着差异。 MEMTrack 对微型机器人定位和跟踪做出了重大贡献，并开启了基于视觉的深度学习方法在密集和低对比度设置中控制微型机器人的潜力。

Efficient Apple Maturity and Damage Assessment: A Lightweight Detection Model with GAN and Attention Mechanism
Authors Yufei Liu, Manzhou Li, Qin Ma
本研究提出了一种基于轻量级卷积神经网络 CNN 和生成对抗网络 GAN 的方法，用于苹果成熟度和损伤程度检测任务。最初，通过优化模型的深度和宽度，并采用先进的模型压缩技术，设计了轻量级的CNN模型，成功地降低了模型的参数和计算要求，从而提高了实际应用中的实时性能。同时引入注意力机制，动态调整不同特征层的重要性，以提高目标检测任务的性能。为了解决样本不平衡和样本量不足的问题，使用 GAN 生成逼真的苹果图像，扩大训练数据集，增强模型在面对不同成熟度和损坏程度的苹果时的识别能力。此外，通过应用目标检测网络对受损苹果进行受损位置标注，提高了受损程度检测的准确性，为决策提供更精确的依据。实验结果表明，在苹果成熟度分级检测中，该模型的精度、召回率、准确率和FPS分别达到95.6、93.8、95.0和56.5。在苹果损伤程度检测中，所提出的模型的精度、召回率和mAP分别达到95.3、93.7和94.5。

Towards Scenario-based Safety Validation for Autonomous Trains with Deep Generative Models
Authors Thomas Decker, Ananta R. Bhattarai, Michael Lebacher
现代人工智能技术为自动驾驶汽车带来了越来越多的可能性，但如何正确验证此类系统的可靠性仍不清楚。一种常见的方法是根据预定义的操作设计域 ODD 来进行安全验证，该操作设计域 ODD 描述了被测系统需要正常运行的特定条件。然而，收集足够的实际测试用例以确保全面的 ODD 覆盖是具有挑战性的。在本文中，我们报告了使用深度生成模型进行数据模拟以进行基于场景的 ODD 验证的实践经验。我们考虑基于相机的铁路场景分割系统的具体用例，该系统旨在支持自动列车运行。我们展示了利用深度生成模型对铁路场景进行语义编辑的能力，使有限的测试数据更具代表性。我们还展示了我们的方法如何帮助分析系统符合典型 ODD 要求的程度。

ViPE: Visualise Pretty-much Everything
Authors Hassan Shahmohammadi, Adhiraj Ghosh, Hendrik P. A. Lensch
比喻和非文字表达深深地融入了人类交流中。可视化这些表达方式可以让我们表达我们的创造性思维，并唤起微妙的情感。另一方面，最近的文本到图像模型（例如稳定扩散）很难描述非文字表达。最近的工作主要通过小规模编译人工注释的数据集来解决这个问题，这不仅需要专业知识，而且效率非常低。为了解决这个问题，我们引入了 ViPE Visualize Pretty Everything。 ViPE 提供了一系列轻量级且强大的语言模型，这些模型已经过大规模歌词集的训练，并具有代表其隐含含义的嘈杂的视觉描述。合成视觉描述由 GPT3.5 生成，既不依赖于人类注释，也不依赖于图像。 ViPE 可以有效地将任意文本片段表达为可视化描述，从而生成有意义且高质量的图像。我们提供了令人信服的证据，证明 ViPE 在综合视觉阐述方面比 GPT3.5 更强大。

Model Selection of Anomaly Detectors in the Absence of Labeled Validation Data
Authors Clement Fung, Chen Qiu, Aodong Li, Maja Rudolph
异常检测需要检测大型未标记数据集中的异常样本。虽然深度学习的进步和基础模型的出现已经产生了强大的无监督异常检测方法，但它们在实践中的部署往往会因缺乏标记数据而受到阻碍，无法可靠地评估异常检测器的检测精度。在这项工作中，我们提出了一个通用框架，用于使用综合生成的验证数据来评估基于图像的异常检测器。我们的方法假设访问一小部分正常图像的支持集，这些正常图像是用预先训练的扩散模型处理的，我们提出的方法不需要训练或微调来产生合成异常。当与支持集中的正常样本混合时，合成异常会创建检测任务，构成异常检测评估和模型选择的验证框架。在广泛的实证研究中，从自然图像到工业应用，我们发现我们的综合验证框架选择与地面实况验证集相同的模型和超参数。

LMT: Longitudinal Mixing Training, a Framework to Predict Disease Progression from a Single Image
Authors Rachid Zeghlache, Pierre Henri Conze, Mostafa El Habib Daho, Yihao Li, Hugo Le boite, Ramin Tadayoni, Pascal Massin, B atrice Cochener, Ikram Brahim, Gwenol Quellec, Mathieu Lamard
纵向成像能够捕获静态解剖结构和疾病进展的动态变化，从而实现更早、更好的患者特异性病理管理。然而，传统方法很少利用纵向信息进行检测和预测，特别是对于糖尿病视网膜病变 DR。在过去的几年中，将训练和借口任务与纵向背景混合起来有效地增强了 DR 分类结果并捕获疾病进展。同时，提出了一种名为神经常微分方程NODE的新型神经网络来求解常微分方程，将神经网络视为黑匣子。根据定义，NODE 非常适合解决与时间相关的问题。在本文中，我们建议结合这三个方面来检测和预测 DR 进展。我们的框架纵向混合训练 LMT 既可以被视为正则化器，也可以被视为在潜在空间中编码疾病进展的借口任务。此外，我们使用标准和纵向借口任务在具有纵向上下文的下游任务上评估经过训练的模型权重。我们引入了一种使用 t mix 训练时间感知模型的新方法，t mix 是两次连续检查之间的加权平均时间。我们使用 OPHDIAT（纵向视网膜彩色眼底照片 CFP 数据集）将我们的方法与 DR 分类的标准混合训练方法进行比较。我们能够使用单张图像来预测眼睛在接下来的就诊中是否会出现严重的 DR，与基线结果 0.641 相比，AUC 为 0.798。

Style transfer between Microscopy and Magnetic Resonance Imaging via Generative Adversarial Network in small sample size settings
Authors Monika Pytlarz, Adrian Onicas, Alessandro Crimi
基于相同组织样本的磁共振成像 MRI 和显微成像的跨模式增强很有前景，因为它可以在没有潜在侵入性活检程序的情况下进行组织病理学分析。在这里，我们测试了一种使用条件生成对抗网络 cGAN 架构从胼胝体 MRI 扫描生成显微组织学图像的方法。据我们所知，这是大脑 MRI 首次多模式转换为同一样本的组织学体积表示。通过训练配对图像翻译模型来评估该技术，该模型从 MRI 扫描和显微镜中获取图像集。为此目的使用 cGAN 具有挑战性，因为显微图像尺寸较大且样本可用性通常较低。目前的工作表明，该框架能够可靠地从胼胝体 MRI 扫描中合成组织学图像，强调该网络能够训练高分辨率组织学与相对较低分辨率的 MRI 扫描。

Image super-resolution via dynamic network
Authors Chunwei Tian, Xuanyu Zhang, Qi Zhang, Mingming Yang, Zhaojie Ju
卷积神经网络 CNN 依靠深层网络架构来提取图像超分辨率的准确信息。然而，这些 CNN 获得的信息不能完全表达复杂场景的预测高质量图像。在本文中，我们提出了一种用于图像超分辨率的动态网络 DSRNet，其中包含残差增强块、宽增强块、特征细化块和构造块。残差增强块由残差增强架构组成，以促进图像超分辨率的分层特征。为了增强所获得的超分辨率模型对于复杂场景的鲁棒性，宽增强块实现了动态架构来学习更鲁棒的信息，以增强所获得的超分辨率模型对于不同场景的适用性。为了防止宽增强块中组件的干扰，细化块利用堆叠架构来准确学习获得的特征。此外，残差学习操作嵌入在细化块中以防止长期依赖性问题。最后，构造块负责重建高质量图像。设计的异构架构不仅可以促进更丰富的结构信息，而且是轻量级的，适合移动数字设备。实验结果表明，我们的方法在图像超分辨率的性能和恢复时间以及复杂度方面更具竞争力。

A cross Transformer for image denoising
Authors Chunwei Tian, Menghua Zheng, Wangmeng Zuo, Shichao Zhang, Yanning Zhang, Chia Wen Ling
深度卷积神经网络 CNN 依靠前馈和反馈方式来获得良好的图像去噪性能。然而，如何通过 CNN 获取有效的结构信息来有效地表示给定的噪声图像是复杂场景的关键。在本文中，我们提出了一种跨 Transformer 去噪 CNN CTNet，具有串行块 SB 、并行块 PB 和残差块 RB ，以获得复杂场景的干净图像。 SB 使用增强的残差架构来深度搜索结构信息以进行图像去噪。为了避免关键信息的丢失，PB使用三个异构网络来实现多级特征的多重交互，以广泛地搜索额外信息，以提高所获得的降噪器对复杂场景的适应性。此外，为了提高去噪性能，SB和PB中嵌入了Transformer机制，以提取互补的显着特征，从而有效去除像素关系方面的噪声。最后，应用 RB 来获取干净的图像。实验表明，我们的 CTNet 在真实和合成图像去噪方面优于一些流行的去噪方法。它适用于移动数字设备，即电话。

Long-term Dependency for 3D Reconstruction of Freehand Ultrasound Without External Tracker
Authors Qi Li, Ziyi Shen, Qian Li, Dean C. Barratt, Thomas Dowrick, Matthew J. Clarkson, Tom Vercauteren, Yipeng Hu
目的在不使用任何外部跟踪器的情况下以 3D 方式重建徒手超声一直是超声辅助手术中长期存在的挑战。我们的目标是定义参数化长期依赖关系的新方法，并评估性能。方法首先，通过帧序列内的变换位置对长期依赖性进行编码。这是通过将序列模型与多重变换预测相结合来实现的。其次，提出了两个依赖因素，即解剖图像内容和扫描协议，以有助于准确的重建。通过减少各自的训练方差，对每个因素进行实验量化。结果 1 在每秒 20 帧 fps 的情况下添加高达 400 帧的长期依赖性确实改善了重建，与基线性能相比，累积误差降低了 82.4。研究发现，这种改进取决于序列长度、转换间隔和扫描协议，而且出人意料的是，它并不依赖于使用具有长短期模块的循环网络2。减少训练中的解剖或协议方差会导致重建精度较差。有趣的是，与代表性的解剖特征相比，代表性的协议模式获得了更好的性能。结论所提出的算法使用超参数调整来有效地利用长期依赖性。所提出的依赖因子对于收集不同的训练数据、规范扫描协议和开发高效网络具有实际意义。

Generalizing Medical Image Representations via Quaternion Wavelet Networks
Authors Luigi Sigillo, Eleonora Grassucci, Aurelio Uncini, Danilo Comminiello
由于不同来源和各种任务的数据集的可用性不断增加，神经网络的泛化性正在成为一个广泛的研究领域。在处理医疗数据时，这个问题更为广泛，因为缺乏方法标准，导致不同成像中心提供的数据或使用各种设备和辅助因子获取的数据存在巨大差异。为了克服这些限制，我们引入了一种新颖的、可概括的、数据和任务无关的框架，能够从医学图像中提取显着特征。所提出的四元数小波网络 QUAVE 可以轻松地与任何现有的医学图像分析或合成任务集成，并且它可以涉及实数、四元数或超复值模型，将其推广到单通道数据。 QUAVE首先通过四元数小波变换提取不同的子带，从而得到低频近似带和高频细粒度特征。然后，它会权衡最具代表性的子带集，作为任何其他图像处理神经模型的输入，替换标准数据样本。我们进行了广泛的实验评估，包括不同的数据集、不同的图像分析和合成任务，包括重建、分割和模态转换。我们还结合实数和四元数值模型来评估 QUAVE。

RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models
Authors Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
机器人视觉应用通常需要广泛的视觉感知任务，例如对象检测、分割和识别。虽然这些单独的任务已经取得了实质性进展，但将专门的模型集成到统一的视觉管道中却带来了巨大的工程挑战和成本。最近，多模态大型语言模型 MLLM 已成为各种下游任务的新型支柱。我们认为，利用 MLLM 的预训练功能可以创建简化的框架，从而减少对特定任务编码器的需求。具体来说，MLLM 中的大规模预训练知识可以更轻松地对下游机器人视觉任务进行微调，并产生卓越的性能。我们引入了配备 BEiT 3 主干的 RoboLLM 框架，以解决 ARMBench 挑战中的所有视觉感知任务，该挑战是关于现实世界仓库场景的大规模机器人操作数据集。 RoboLLM 不仅优于现有基线，而且还大大减少了与模型选择和调整相关的工程负担。

Self-supervised Fetal MRI 3D Reconstruction Based on Radiation Diffusion Generation Model
Authors Junpeng Tan, Xin Zhang, Yao Lv, Xiangmin Xu, Gang Li
虽然使用多个堆栈可以处理切片到体积的运动校正和伪影消除问题，但仍然存在几个问题1 切片到体积方法通常使用切片作为输入，无法解决不同区域的均匀强度分布和互补性问题胎儿MRI堆栈 2 未考虑3D空间的完整性，这对胎儿MRI中全局一致信息的辨别和生成产生不利影响。 3 现实世界中存在严重运动伪影的胎儿MRI无法实现高质量的超分辨率重建。为了解决这些问题，我们提出了一种新型胎儿脑 MRI 高质量体积重建方法，称为辐射扩散生成模型 RDGM。它是一种自监督生成方法，融合了基于坐标生成的神经辐射场NeRF和基于超分辨率生成的扩散模型的思想。为了解决不同方向上的区域强度异质性，我们使用预训练的变压器模型进行切片配准，然后提出了一种新的区域一致隐式神经表示 CINR 网络子模块。 CINR可以通过组合两个不同坐标映射空间的坐标关联图来生成初始体积。为了增强体积全局一致性和辨别力，我们引入了体积扩散超分辨率生成 VDSG 机制。利用扩散生成的思想进行体到体的全局强度判别生成，CINR成为体到体扩散模型的偏差强度生成网络。

KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training
Authors Truong Thao Nguyen, Balazs Gerofi, Edgar Josafat Martinez Noriega, Fran ois Trahay, Mohamed Wahib
本文提出了一种在深度神经网络训练过程中隐藏最不重要样本的方法，以提高效率，即降低训练成本。使用训练期间有关损失和预测置信度的信息，我们根据样本对整个学习过程的贡献自适应地查找在给定时期中排除的样本，而不会显着降低准确性。我们在考虑 SGD 更新次数减少时探索收敛特性。对直接用于图像分类和分割的各种大规模数据集和模型的实证结果表明，虽然具有替换重要性的采样算法在大型数据集上表现不佳，但我们的方法可以将总训练时间减少多达 22 倍，与之前的方法相比，准确率仅降低 0.4 倍。基线。

A Multi-Scale Spatial Transformer U-Net for Simultaneously Automatic Reorientation and Segmentation of 3D Nuclear Cardiac Images
Authors Yangfan Ni, Duo Zhang, Gege Ma, Lijun Lu, Zhongke Huang, Wentao Zhu
左心室左心室的精确重定向和分割对于心肌灌注成像MPI的定量分析至关重要，其中关键一步是将重建的经轴核心脏图像重新定向为标准短轴切片以进行后续图像处理。小规模左室心肌的左室MY区域检测和个体患者心脏结构的多样性给左室分割操作带来了挑战。为了缓解这些问题，我们提出了一种端到端模型，称为多尺度空间变换器 UNet MS ST UNet ，该模型涉及多尺度空间变换器网络 MSSTN 和多尺度 UNet MSUNet 模块，用于从核对 LV 区域同时进行重新定向和分割心脏图像。使用两种不同的核心脏图像模式 13N 氨 PET 和 99mTc sestamibi SPECT 对所提出的方法进行训练和测试。我们使用多尺度策略来生成和提取不同尺度的图像特征。我们的实验结果表明，所提出的方法显着提高了重新定向和分割性能。这种联合学习框架促进了重新定向和分割任务之间的相互增强，从而实现了尖端的性能和高效的图像处理工作流程。

PUCA: Patch-Unshuffle and Channel Attention for Enhanced Self-Supervised Image Denoising
Authors Hyemi Jang, Junsung Park, Dahuin Jung, Jaihyun Lew, Ho Bae, Sungroh Yoon
尽管监督图像去噪网络在合成噪声图像上表现出了卓越的性能，但由于真实噪声和合成噪声之间的差异，它们在实践中经常失败。由于收集来自现实世界的干净噪声图像对的成本极高，因此人们研究了利用噪声输入本身作为目标的自监督学习。为了防止自监督去噪模型学习相同的映射，每个输出像素不应受到其对应输入像素的影响，这一要求称为 J 不变性。盲点网络 BSN 已成为确保自监督图像去噪中 J 不变性的普遍选择。然而，通过注入额外的操作（例如下采样）构建 BSN 的变体可能会暴露盲信息，从而违反 J 不变性。因此，只允许专门为 BSN 设计的卷积，从而限制了架构的灵活性。为了克服这个限制，我们提出了 PUCA，一种新颖的 J 不变 U 网络架构，用于自监督去噪。 PUCA 利用 patch unshuffle shuffle 来显着扩展感受野，同时保持 J 不变性和扩展注意力块 DAB 以实现全局上下文合并。

Hyperspectral Image Fusion via Logarithmic Low-rank Tensor Ring Decomposition
Authors Jun Zhang, Lipeng Zhu, Chao Wang, Shutao Li
将低空间分辨率高光谱图像 LR HSI 与高空间分辨率多光谱图像 HR MSI 集成被认为是获取 HR HSI 的有效方法。在当前的融合方法中，基于张量环TR分解的方法由于其在保持空间谱相关性方面的优越性能而受到越来越多的关注。此外，一些 TR 因子中的低秩特性已通过沿模式 2 的矩阵核范数正则化得到利用。另一方面，基于张量核范数 TNN 的方法最近已被证明在保持高维低秩结构方面更有效。张量恢复。在这里，我们从 TNN 角度研究 TR 因素的低排序，并考虑每个 TR 因素上的模式 2 对数 TNN LTNN。通过结合 LTNN 正则化和加权总变分，提出了一种新的融合模型，以促进 HR HSI 在空间谱域的连续性。同时，我们设计了一种高效的近端交替最小化算法来求解所提出的模型。

Assessing Encoder-Decoder Architectures for Robust Coronary Artery Segmentation
Authors Shisheng Zhang, Ramtin Gharleghi, Sonit Singh, Arcot Sowmya, Susann Beier
冠状动脉疾病是全世界死亡的主要原因之一。精确的冠状动脉分割有助于及时、准确的诊断，对于改变患者的治疗结果至关重要。在生物医学成像领域，卷积神经网络，尤其是 U Net 架构，彻底改变了分割过程。然而，主要挑战之一仍然是缺乏针对冠状动脉的基准数据集。然而，通过使用最近发布的公共数据集 ASOCA，可以提高深度学习精确冠状动脉分割的潜力。本文深入研究了 25 种不同编码器解码器组合的性能。通过对提供给 ASOCA 参与者的 40 个案例的分析，发现作为编码器和解码器的 EfficientNet LinkNet 组合脱颖而出。它的 Dice 系数为 0.882，第 95 个百分点的 Hausdorff 距离为 4.753。

SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical Image Segmentation
Authors Tan Hanh Pham, Xianqi Li, Kim Doang Nguyen
由于对精确诊断的需求不断增长、个性化治疗计划的推动以及机器学习算法的进步，特别是深度学习方法的结合，自动医学图像分割在现代临床实践中变得越来越重要。虽然卷积神经网络 CNN 在这些方法中很流行，但基于 Transformer 的计算机视觉任务模型的巨大潜力正在获得更多认可。为了利用基于 CNN 和基于 Transformer 的模型的优点，我们提出了一种简单而有效的 UNet Transformer seUNet Trans 模型，用于医学图像分割。在我们的方法中，UNet 模型被设计为特征提取器，用于从输入图像生成多个特征图，这些图被传播到桥接层中，该桥接层依次连接 UNet 和 Transformer。在这个阶段，我们采用没有位置嵌入向量的像素级嵌入技术来使模型更加高效。此外，我们在 Transformer 中应用了空间缩减注意力来减少计算内存开销。通过利用 UNet 架构和自注意力机制，我们的模型不仅保留本地和全局上下文信息，而且还捕获输入元素之间的长范围依赖关系。所提出的模型在五个医学图像分割数据集（包括息肉分割）上进行了广泛的实验，以证明其有效性。

Class-Specific Data Augmentation: Bridging the Imbalance in Multiclass Breast Cancer Classification
Authors Kanan Mahammadli, Abdullah Burkan Bereketoglu, Ayse Gul Kabakci
乳腺癌是女性中最常见的癌症，在男性中也很常见，每年占新诊断癌症的十分之一以上。这也是女性死于癌症的第二常见原因。因此，需要及早发现并进行针对性治疗。早期检测可以提供适当的、基于患者的治疗方案。而且，早期检测还可以提供囊肿的类型。本文采用类级别数据增强，解决采样不足的类并提高其检测率。该方法提出了两个关键组成部分，即苏木精和伊红染色图像的结构保留染色标准化技术的类级数据增强，以及通过转移学习进行乳腺癌图像多类分类的基于变压器的 ViTNet 架构。这种合并能够通过先进的图像处理和深度学习将乳腺癌图像分类为良性或四种不同的恶性亚型之一，方法是专注于类别级别的增强并迎合每个类别的独特特征，提高欠采样类别的分类精度，这导致降低与乳腺癌相关的死亡率。

Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical Flow with Monocular Depth Completion Prior
Authors Xiaotong Chen, Zheming Zhou, Zhuo Deng, Omid Ghasemalizadeh, Min Sun, Cheng Hao Kuo, Arnie Sen
使用经济实惠的 RGB D 相机重建透明物体是机器人感知中的一个持续挑战，因为 RGB 域中视图之间的外观不一致以及每个视图中的深度读数不准确。我们引入了一个两阶段管道，用于重建专为移动平台定制的透明对象。在第一阶段，利用现成的单目对象分割和深度完成网络来预测透明对象的深度，提供先验的单视图形状。随后，我们提出对极引导光流 EOF，将第一阶段的几个单视图形状先验融合到交叉视图一致的 3D 重建（给定从场景的不透明部分估计的相机姿势）。我们的关键创新在于 EOF，它在光流中采用边界敏感采样和对极线约束，以在透明物体的多个视图之间准确建立 2D 对应关系。

Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning
Authors Chahyon Ku 1 , Carl Winge 1 , Ryan Diaz 1 , Wentao Yuan 2 , Karthik Desingh 1 1 University of Minnesota, 2 University of Washington
本文主要关注在对象组装任务的背景下评估和基准化视觉表示的鲁棒性。具体来说，它研究具有几何挤压和侵入的对象的对齐和插入，通常称为孔中钉任务。在 SE 3 空间中检测和定位销钉和孔几何形状以实现成功组装所需的精度提出了重大挑战。为了解决这个问题，我们在视觉运动策略学习中采用了一个通用框架，该框架利用视觉预训练模型作为视觉编码器。我们的研究调查了该框架应用于双臂操作设置（特别是抓取变化）时的稳健性。我们的定量分析表明，现有的预训练模型无法捕获此任务所需的基本视觉特征。然而，从头开始训练的视觉编码器始终优于冻结的预训练模型。此外，我们讨论了旋转表示和相关的损失函数，它们可以显着改善策略学习。我们提出了一种新颖的任务场景，旨在评估视觉运动政策学习的进展，特别注重提高需要几何和空间推理的复杂组装任务的稳健性。

Explaining How a Neural Network Play the Go Game and Let People Learn
Authors Huilin Zhou, Huijie Tang, Mingjie Li, Hao Zhang, Zhenyu Liu, Quanshi Zhang
AI模型在围棋游戏中已经超越了人类棋手，人们普遍认为AI模型编码了超越人类棋手的关于围棋游戏的新知识。通过这种方式，解释人工智能模型编码的知识并用它来教导人类玩家代表了可解释人工智能中一个有前途但具有挑战性的问题。为此，需要数学的支持来保证人类玩家能够学到准确的、可验证的知识，而不是似是而非的直观分析。因此，在本文中，我们提取围棋价值网络编码的棋子之间的交互原语，以便人们能够从价值网络中学习。

Turn Passive to Active: A Survey on Active Intellectual Property Protection of Deep Learning Models
Authors Mingfu Xue, Leo Yu Zhang, Yushu Zhang, Weiqiang Liu
深度学习DL模型的知识产权保护引起了越来越多的关注。人们提出了许多关于深度神经网络 DNN 模型知识产权保护的工作。现有工作绝大多数使用DNN水印来在盗版发生后验证模型的所有权，这被称为被动验证。相反，我们关注的是一种新型的知识产权保护方法，即主动版权保护，指的是DNN模型的主动授权控制和用户身份管理。截至目前，主动DNN版权保护领域的研究相对有限。在这篇综述中，我们试图清晰地阐述主动DNN版权保护的内涵、属性和要求，提供主动版权保护的评估方法和指标，回顾和分析主动DL模型知识产权保护的现有工作，讨论主动版权保护的潜在攻击。主动DL模型版权保护技术可能面临的挑战，为主动DL模型知识产权保护提供了挑战和未来方向。

Can LSH (Locality-Sensitive Hashing) Be Replaced by Neural Network?
Authors Renyang Liu, Jun Zhao, Xing Chu, Yu Liang, Wei Zhou, Jing He
随着GPU图形处理单元技术和神经网络的快速发展，我们可以探索更合适的数据结构和算法。最近的进展表明神经网络可以部分取代传统的数据结构。在本文中，我们提出了一种基于学习局部敏感哈希的新型 DNN 深度神经网络（称为 LLSH），可以高效灵活地将高维数据映射到低维空间。 LLSH用并行多层神经网络取代了传统的LSH局部敏感哈希函数族，减少了时间和内存消耗，同时保证了查询精度。所提出的LLSH证明了用基于学习的神经网络取代哈希索引的可行性，并为开发人员更准确地设计和配置数据组织以提高信息搜索性能打开了一扇新的大门。

Model Inversion Attacks on Homogeneous and Heterogeneous Graph Neural Networks
Authors Renyang Liu, Wei Zhou, Jinhong Zhang, Xiaoyuan Liu, Peiyuan Si, Haoran Li
最近，图神经网络GNN，包括同构图神经网络HomoGNN和异构图神经网络HeteGNN，在许多物理场景，特别是在通信应用中取得了显着的进展。尽管取得了巨大成功，此类模型的隐私问题也受到了相当多的关注。先前的研究表明，给定一个拟合良好的目标 GNN，攻击者可以通过模型反转攻击重建该模型的敏感训练图，从而给 AI 服务提供商带来重大的隐私担忧。我们主张该漏洞来自目标 GNN 本身以及有关现实世界图中共享属性的先验知识。受此启发，我们提出了一种针对 HomoGNN 和 HeteGNN 的新型模型反转攻击方法，即 HomoGMI 和 HeteGMI。具体来说，HomoGMI 和 HeteGMI 是基于梯度下降的优化方法，旨在最大化目标 GNN 上的交叉熵损失以及重构图上的一阶和二阶近似值。值得注意的是，据我们所知，HeteGMI 是首次尝试对 HeteGNN 进行模型反转攻击。

Explore the Effect of Data Selection on Poison Efficiency in Backdoor Attacks
Authors Ziqiang Li, Pengfei Xia, Hong Sun, Yueqi Zeng, Wei Zhang, Bin Li
随着深度神经网络 DNN 中参数数量的增加，对训练数据的需求也随之增加。为了节省成本，用户和企业将耗时的数据收集委托给第三方已变得普遍。不幸的是，最近的研究表明，这种做法增加了 DNN 遭受后门攻击的风险。具体来说，攻击者可以通过毒害一小部分训练数据来恶意控制训练模型的行为。在本研究中，我们重点从样本选择的角度提高后门攻击的中毒效率。现有的攻击方法是通过从良性集中随机选择一些干净的数据，然后将触发器嵌入其中来构造此类中毒样本。然而，这种随机选择策略忽略了每个样本对后门注入的贡献可能不同，从而降低了中毒效率。针对上述问题，提出了一种新的选择策略，即改进的过滤和更新策略FUS。具体来说，我们采用样本的遗忘事件来表示不同中毒样本的贡献，并使用损失曲面的曲率来分析这种现象的有效性。因此，我们结合遗忘事件和不同样本的曲率来进行简单而有效的样本选择策略。图像分类 CIFAR 10、CIFAR 100、ImageNet 10 、文本分类 AG News 、音频分类 ESC 50 和年龄回归 Facial Age 的实验结果一致证明了所提出策略的有效性，使用 FUS 的攻击性能明显高于使用随机的攻击性能

FuseSR: Super Resolution for Real-time Rendering through Efficient Multi-resolution Fusion
Authors Zhihua Zhong, Jingsen Zhu, Yuxin Dai, Chuankun Zheng, Yuchi Huo, Guanlin Chen, Hujun Bao, Rui Wang
随着人们对高分辨率、高刷新率、高真实感的需求不断增加，实时渲染的工作量急剧增加，压垮了大多数显卡。为了缓解这个问题，最流行的解决方案之一是以低分辨率渲染图像以减少渲染开销，然后设法将低分辨率渲染图像准确地上采样到目标分辨率，也称为超分辨率技术。大多数现有方法侧重于利用低分辨率输入（例如历史帧）的信息。这些 LR 输入中缺乏高频细节，使得它们很难在高分辨率预测中恢复精细细节。在本文中，我们提出了一种高效且有效的超分辨率方法，该方法利用低成本高分辨率辅助 G 缓冲区作为额外输入来预测高质量的上采样重建。以 LR 图像和 HR G 缓冲区作为输入，网络需要在多分辨率级别上对齐和融合特征。我们引入了高效且有效的 H Net 架构来解决这个问题，并显着减少渲染开销，而不会出现明显的质量恶化。

A Partially Supervised Reinforcement Learning Framework for Visual Active Search
Authors Anindya Sarkar, Nathan Jacobs, Yevgeniy Vorobeychik
视觉主动搜索 VAS 已被提出作为一种建模框架，其中视觉线索用于指导探索，其目标是识别大地理空间区域中的感兴趣区域。其潜在应用包括识别稀有野生动物偷猎活动的热点、搜索和救援场景、识别武器、毒品或人口的非法贩运等等。最先进的 VAS 方法包括深度强化学习 DRL 的应用（产生端到端搜索策略）和传统的主动搜索（将预测与自定义算法方法相结合）。虽然 DRL 框架已被证明在这些领域远远优于传统的主动搜索，但它的端到端性质并没有充分利用训练期间或实际搜索期间获得的监督信息，如果搜索任务与那些任务显着不同，那么这是一个重大限制在训练分布中。我们提出了一种方法，通过将搜索策略分解为预测模块和搜索模块来结合 DRL 和传统主动搜索的优势，预测模块根据任务嵌入和搜索历史生成感兴趣区域的地理空间分布，而搜索模块则采用预测和搜索历史作为输入并输出搜索分布。我们开发了一种新颖的元学习方法，用于共同学习由此产生的组合策略，该策略可以有效利用在训练和决策时获得的监督信息。

JSMoCo: Joint Coil Sensitivity and Motion Correction in Parallel MRI with a Self-Calibrating Score-Based Diffusion Model
Authors Lixuan Chen, Xuanyu Tian, Jiangjie Wu, Ruimin Feng, Guoyan Lao, Yuyao Zhang, Hongjiang Wei
磁共振成像 MRI 是临床诊断的一种强大方式。然而，众所周知，MRI 面临着采集时间长和容易受到运动引起的伪影等挑战。尽管许多现有的运动校正算法取得了成功，但针对快速 MRI 重建的估计线圈灵敏度图上的运动伪影进行校正的研究仍然有限。由于不准确的线圈灵敏度图估计导致的误差传播，现有方法可能会遭受严重的性能下降。在这项工作中，我们建议联合估计欠采样 MRI 重建的运动参数和线圈灵敏度图，称为 JSMoCo。然而，由于未知数量的增加，运动参数和线圈灵敏度的联合估计会导致严重不适定的逆问题。为了解决这个问题，我们引入基于分数的扩散模型作为强大的先验，并利用 MRI 物理原理来有效地约束该优化问题的解决方案空间。具体来说，我们将刚性运动参数化为三个可训练变量，并将线圈灵敏度图建模为多项式函数。然后，利用物理知识，我们采用吉布斯采样器进行联合估计，确保灵敏度图和所需图像之间的系统一致性，避免从预先估计的灵敏度图到重建图像的误差传播。我们进行了全面的实验来评估 JSMoCo 在 fastMRI 数据集上的性能。结果表明，我们的方法能够从稀疏采样的 k 空间数据重建高质量的 MRI 图像，甚至受到运动的影响。

Learning Hierarchical Features with Joint Latent Space Energy-Based Prior
Authors Jiali Cui, Ying Nian Wu, Tian Han
本文研究了多层生成器模型在学习层次表示方面的基本问题。由以自上而下的架构组织的多层潜在变量组成的多层生成器模型倾向于学习多个级别的数据抽象。然而，这种多层潜在变量通常被参数化为高斯分布，这在捕获复杂抽象时信息量较少，导致分层表示学习的成功有限。另一方面，基于能量的 EBM 先验在捕获数据规律方面具有表现力，但它通常缺乏层次结构来捕获不同级别的层次表示。在本文中，我们提出了一种具有多层潜在变量的联合潜在空间 EBM 先验模型，用于有效的分层表示学习。我们开发了一种变分联合学习方案，可以无缝集成推理模型以实现高效推理。

B-Spine: Learning B-Spline Curve Representation for Robust and Interpretable Spinal Curvature Estimation
Authors Hao Wang, Qiang Song, Ruofeng Yin, Rui Ma, Yizhou Yu, Yi Chang
脊柱曲率估计对于脊柱侧凸的诊断和治疗具有重要意义。现有方法面临几个问题，例如需要对椎骨标志进行昂贵的注释以及对图像质量敏感。实现稳健的估计并获得可解释的结果具有挑战性，特别是对于模糊且模糊的低质量图像。在本文中，我们提出了 B Spine，一种新颖的深度学习流程，用于学习脊柱的 B 样条曲线表示，并根据低质量 X 射线图像估计科布角以进行脊柱曲率估计。给定低质量输入，提出了一种新颖的 SegRefine 网络，该网络采用不成对的图像到图像转换，从初始分割结果生成高质量的脊柱掩模。接下来，提出了一种新的基于掩模的 B 样条预测模型来预测脊柱中心线的 B 样条曲线。最后，通过结合曲线斜率分析和基于曲线的回归模型的混合方法来估计科布角。我们在公共 AASCE2019 数据集和我们新提出的 CJUH JLU 数据集（包含更具挑战性的低质量图像）上与代表性方法和基于 SOTA 学习的方法进行定量和定性比较。

Benchmarking the Sim-to-Real Gap in Cloth Manipulation
Authors David Blanco Mulero, Oriol Barbany, Gokhan Alcan, Adri Colom , Carme Torras, Ville Kyrki
真实的物理引擎对于学习在模拟中操纵可变形物体（例如服装）起着至关重要的作用。通过这样做，研究人员可以规避诸如感测现实世界中物体变形等挑战。尽管在这项任务中广泛使用了模拟，但很少有工作评估可变形物体模拟器与现实世界数据之间的现实差距。我们提供了一个基准数据集来评估布料操作中的模拟与真实差距。通过执行涉及与刚性桌子接触的动态布料操作任务来收集数据集。我们使用该数据集来评估四种流行的可变形物体模拟器 MuJoCo、Bullet、Flex 和 SOFA 的现实差距、计算时间和模拟稳定性。此外，我们还讨论了每个模拟器的优点和缺点。基准数据集是开源的。

Learning In-between Imagery Dynamics via Physical Latent Spaces
Authors Jihun Han, Yoonsang Lee, Anne Gelb
我们提出了一个框架，旨在学习在连续时间步骤中观察到的两个图像之间的潜在动态。图像数据的复杂性和时间信息的缺乏对捕获独特的演变模式提出了重大挑战。我们提出的方法侧重于估计图像演化的中间阶段，允许通过潜在动态进行解释，同时保留与图像的空间相关性。通过合并遵循以偏微分方程 PDE 表示的物理模型的潜在变量，我们的方法确保了学习模型的可解释性，并提供了对相应图像动态的洞察。

UCM-Net: A Lightweight and Efficient Solution for Skin Lesion Segmentation using MLP and CNN
Authors Chunyu Yuan, Dongfang Zhao, Sos S. Agaian
皮肤癌是一个重大的公共卫生问题，计算机辅助诊断可以帮助预防和治疗它。计算机辅助诊断的关键步骤是准确分割图像中的皮肤病变，从而实现病变检测、分类和分析。然而，由于病变的不同特征，如外观、形状、大小、颜色、纹理和位置，以及噪声、伪影和遮挡等图像质量问题，这项任务具有挑战性。深度学习模型最近已应用于皮肤病变分割，但它们具有较高的参数数量和计算需求，使得它们不适合移动健康应用。为了应对这一挑战，我们提出了 UCM Net，这是一种新颖、高效、轻量级的解决方案，集成了多层感知 MLP 和卷积神经网络 CNN。与传统的 UNet 架构不同，我们的 UCMNet 块减少了参数开销并增强了 UCM Net 的学习能力，从而实现了强大的分割性能。我们通过对 isic2017 和 isic2018 数据集进行大量实验来验证 UCM Net 的竞争力。值得注意的是，UCM Net 的参数少于 50KB，每秒 GLOP 少于 0.05 Giga 操作，为皮肤病变分割的效率设定了新的可能标准。

Automatic segmentation of lung findings in CT and application to Long COVID
Authors Diedre S. Carmo, Rosarie A. Tudas, Alejandro P. Comellas, Leticia Rittner, Roberto A. Lotufo, Joseph M. Reinhardt, Sarah E. Gerard
计算机断层扫描中肺部异常的自动分割是诊断和表征肺部疾病的重要一步。在这项工作中，我们改进了以前的方法并提出了 S MEDSeg，这是一种基于深度学习的方法，用于准确分割胸部 CT 图像中的肺部病变。 S MEDSeg 结合了预先训练的 EfficientNet 主干网、双向特征金字塔网络和现代网络进步，以实现改进的分割性能。进行了全面的消融研究，以评估所提出的网络修改的贡献。结果表明，与基线方法相比，S MEDSeg 中引入的修改显着提高了分割性能。所提出的方法应用于长期住院患者的独立数据集，以研究急性感染后疫苗接种对肺部检查结果范围的影响。

LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient Representations
Authors Ahmed Khalil, Robert Piechocki, Raul Santos Rodriguez
在本文中，我们介绍了可学习的格向量量化，并证明了它对于学习离散表示的有效性。我们的方法称为 LL VQ VAE，用基于点阵的离散化取代了 VQ VAE 中的矢量量化层。可学习的晶格在所有离散嵌入上强加了一种结构，起到防止码本崩溃的作用，从而导致码本的高利用率。与 VQ VAE 相比，我们的方法在相同的训练条件下获得了更低的重建误差，训练时间很短，并且参数数量恒定，等于嵌入维度 D ，使其成为一种非常可扩展的方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

这篇关于【AI视野·今日CV 计算机视觉论文速览第269期】Tue, 17 Oct 2023的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！