【AI视野·今日CV 计算机视觉论文速览第262期】Fri, 6 Oct 2023

本文主要是介绍【AI视野·今日CV 计算机视觉论文速览第262期】Fri, 6 Oct 2023，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 6 Oct 2023
Totally 73 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Improved Baselines with Visual Instruction Tuning
Authors Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee
大型多模态模型 LMM 最近在视觉指令调整方面取得了令人鼓舞的进展。在这篇文章中，我们展示了 LLaVA 中完全连接的视觉语言跨模式连接器的强大功能和数据效率。通过对 LLaVA 进行简单修改，即使用带有 MLP 投影的 CLIP ViT L 336px 并添加具有简单响应格式提示的面向学术任务的 VQA 数据，我们建立了更强大的基线，在 11 个基准中实现了最先进的水平。我们最终的 13B 检查点仅使用 1.2M 公开数据，并在 1 天内在单个 8 A100 节点上完成完整训练。我们希望这能让最先进的 LMM 研究更容易获得。

ContactGen: Generative Contact Modeling for Grasp Generation
Authors Shaowei Liu, Yang Zhou, Jimei Yang, Saurabh Gupta, Shenlong Wang
本文提出了一种新颖的以对象为中心的接触表示 ContactGen，用于手部对象交互。 ContactGen 包括三个组件：接触图指示接触位置，部件图表示接触手部，方向图告诉每个部件内的接触方向。给定一个输入对象，我们提出了一个条件生成模型来预测 ContactGen 并采用基于模型的优化来预测多样化且几何上可行的抓取。实验结果表明，我们的方法可以为各种物体生成高保真度和多样化的人类抓握。

Aligning Text-to-Image Diffusion Models with Reward Backpropagation
Authors Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki
文本到图像扩散模型最近出现在图像生成的最前沿，由大规模无监督或弱监督文本到图像训练数据集提供支持。由于它们的训练不受监督，控制它们在下游任务中的行为（例如最大化人类感知图像质量、图像文本对齐或道德图像生成）是很困难的。最近的工作使用普通强化学习将扩散模型微调到下游奖励函数，该学习因梯度估计器的高方差而臭名昭著。在本文中，我们提出了 AlignProp，一种通过去噪过程使用奖励梯度的端到端反向传播将扩散模型与下游奖励函数对齐的方法。虽然这种反向传播的简单实现需要大量的内存资源来存储现代文本到图像模型的偏导数，但 AlignProp 微调低等级适配器权重模块并使用梯度检查点，以使其内存使用可行。我们测试 AlignProp，将扩散模型微调到各种目标，例如图像文本语义对齐、美观、存在对象数量及其组合的可压缩性和可控性。我们证明 AlignProp 比其他方案以更少的训练步骤获得了更高的奖励，同时概念上更简单，使其成为优化扩散模型以实现感兴趣的可微分奖励函数的直接选择。

Stylist: Style-Driven Feature Ranking for Robust Novelty Detection
Authors Stefan Smeu, Elena Burceanu, Emanuela Haller, Andrei Liviu Nicolicioiu
新颖性检测旨在寻找与已见样本的分布在某种形式上不同的样本。但并非所有的改变都是平等的。数据可能会遭受多种分布变化，我们可能只想检测某些类型的相关变化。与分布泛化中的工作类似，我们建议使用形式化方法将其分为与我们的任务相关的语义或内容更改和与我们的任务无关的风格更改。在这种形式化中，我们将稳健的新颖性检测定义为发现语义变化同时对风格分布变化保持稳健的任务。利用预训练的大规模模型表示，我们引入了 Stylist，这是一种专注于丢弃环境偏差特征的新颖方法。首先，我们根据环境之间的特征分布距离计算每个特征的得分。接下来，我们展示了我们的选择设法删除了造成虚假相关性的特征并提高了新颖性检测性能。为了进行评估，我们将领域泛化数据集适应我们的任务并分析方法的行为。我们还构建了一个大型综合数据集，我们可以在其中控制虚假相关程度。

Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency
Authors Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan
当前的视觉语言生成模型依赖于广泛的配对图像文本数据语料库来获得最佳性能和泛化能力。然而，自动收集此类数据，例如通过大规模网络抓取会导致质量低下和图像文本相关性差，而人工注释更准确，但需要大量的手动工作和费用。我们引入了textbf ITIT textbf In textbf Tegrating textbf I mage textbf T ext ，这是一种基于循环一致性概念的创新训练范式，允许对不成对的图像和文本数据进行视觉语言训练。 ITIT 由联合图像文本编码器和不相交的图像和文本解码器组成，可在单个框架中实现双向图像到文本和文本到图像的生成。在训练过程中，ITIT 利用一小组配对图像文本数据来确保其输出在两个方向上与输入相当匹配。同时，该模型还在仅包含图像或文本的更大数据集上进行训练。这是通过强制原始未配对样本和循环生成的对应样本之间的循环一致性来实现的。例如，它为给定的输入图像生成标题，然后使用该标题创建输出图像，并强制输入和输出图像之间的相似性。我们的实验表明，使用不配对数据集的 ITIT 表现出与使用高质量配对数据相似的缩放行为。

Drag View: Generalizable Novel View Synthesis with Unposed Imagery
Authors Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
我们介绍 DragView，一种新颖的交互式框架，用于生成未见过的场景的新颖视图。 DragView 从单个源图像初始化新视图，并且渲染由一组稀疏的未摆设的多视图图像支持，所有这些都在单个前馈传递中无缝执行。我们的方法从用户通过本地相对坐标系拖动源视图开始。通过将采样的 3D 点沿着目标射线投影到源视图上来获得像素对齐的特征。然后，我们合并一个依赖于视图的调制层，以有效地处理投影期间的遮挡。此外，我们扩大了对极注意力机制以涵盖所有源像素，从而促进来自其他未设定视图的初始化坐标对齐点特征的聚合。最后，我们使用另一个转换器将光线特征解码为最终的像素强度。至关重要的是，我们的框架不依赖于 2D 先验模型或相机姿势的显式估计。在测试过程中，DragView 展示了泛化到训练期间未见过的新场景的能力，并且仅利用未摆姿势的支持图像，从而能够生成以灵活的相机轨迹为特征的照片逼真的新视图。在我们的实验中，我们对 DragView 与在无姿势条件下运行的最新场景表示网络以及受噪声测试相机姿势影响的可推广 NeRF 的性能进行了全面比较。 DragView 始终展现出其在视图合成质量方面的卓越性能，同时也更加用户友好。

Regress Before Construct: Regress Autoencoder for Point Cloud Self-supervised Learning
Authors Yang Liu, Chen Chen, Can Wang, Xulin King, Mengyuan Liu
Masked Autoencoders MAE 在 2D 和 3D 计算机视觉的自监督学习中表现出了良好的性能。然而，现有的基于 MAE 的方法仍然存在一定的缺陷。首先，编码器和解码器之间的功能解耦不完整，限制了编码器的表示学习能力。其次，下游任务仅利用编码器，未能充分利用前置任务中通过编码器解码器架构获取的知识。在本文中，我们提出了 Point Regress AutoEncoder Point RAE，这是一种用于点云自监督学习的回归自动编码器的新方案。所提出的方法通过引入掩模回归器来解耦解码器和编码器之间的功能，该回归器根据编码器编码的可见补丁表示来预测掩模补丁表示，并且解码器根据预测的掩模补丁表示来重建目标。通过这样做，我们可以最大限度地减少解码器更新对编码器表示空间的影响。此外，我们引入了对齐约束，以确保从可见补丁的编码表示预测的蒙版补丁的表示与从编码器计算的蒙版补丁表示对齐。为了充分利用预训练阶段学到的知识，我们为所提出的点 RAE 设计了一种新的微调模式。大量的实验表明，我们的方法在预训练期间是有效的，并且可以很好地概括各种下游任务。具体来说，我们的预训练模型在 ScanObjectNN 最难分割上实现了 textbf 90.28 的高精度，在 ModelNet40 上实现了 textbf 94.1 的高精度，超越了所有其他自监督学习方法。

LumiNet: The Bright Side of Perceptual Knowledge Distillation
Authors Md. Ismail Hossain, M M Lutfe Elahi, Sameera Ramasinghe, Ali Cheraghian, Fuad Rahman, Nabeel Mohammed, Shafin Rahman
在知识蒸馏研究中，基于特征的方法由于能够有效利用广泛的教师模型而占据主导地位。相比之下，基于逻辑的方法被认为不太擅长从教师那里提取隐藏的黑暗知识。为了弥补这一差距，我们提出了 LumiNet，这是一种新颖的知识转移算法，旨在增强基于 Logit 的蒸馏。我们引入了一个感知矩阵，旨在通过基于模型表示能力的调整来重新校准 logits。通过细致地分析班级内动态，LumiNet 重建了更精细的班级间关系，使学生模型能够学习更丰富的知识广度。教师和学生模型都映射到这个精致的矩阵上，学生的目标是尽量减少表征差异。对基准数据集 CIFAR 100、ImageNet 和 MSCOCO 的严格测试证明了 LumiNet 的功效，揭示了其相对于领先的基于特征的方法的竞争优势。此外，在探索迁移学习领域时，我们评估了使用我们的方法训练的学生模型如何有效地适应下游任务。值得注意的是，当应用于 Tiny ImageNet 时，转移的特征表现出卓越的性能，进一步强调了 LumiNet 在不同设置中的多功能性和鲁棒性。

Robustness-Guided Image Synthesis for Data-Free Quantization
Authors Jianhong Bai, Yuchen Yang, Huanpeng Chu, Hualiang Wang, Zuozhu Liu, Ruizhe Chen, Xiaoxuan He, Lianrui Mu, Chengfei Cai, Haoji Hu
量化已成为模型压缩的一个有前途的方向。最近，无数据量化作为一种避免隐私问题的有前途的方法得到了广泛研究，它合成图像作为真实训练数据的替代方案。现有方法使用分类损失来确保合成图像的可靠性。不幸的是，即使这些图像被预先训练的模型很好地分类，它们仍然存在低语义和同质化问题。直观上，这些低语义图像对扰动很敏感，当生成器合成低语义图像时，预训练模型往往会产生不一致的输出。为此，我们提出了鲁棒性引导图像合成RIS，这是一种简单但有效的方法，可以丰富合成图像的语义并提高图像多样性，进一步提高下游无数据压缩任务的性能。具体来说，我们首先引入对输入和模型权重的扰动，然后定义扰动前后特征和预测级别的不一致性度量。在两个层面不一致的基础上，我们设计了鲁棒性优化目标来增强合成图像的语义。此外，我们还通过强制生成器合成标签空间中相关性较小的图像来使我们的方法具有多样性意识。

Visual inspection for illicit items in X-ray images using Deep Learning
Authors Ioannis Mademlis, Georgios Batsis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos
自动检测 X 射线图像中的违禁物品可以显着提高公共安全，提高机场、地铁、海关邮局等安检人员的工作效率并减轻其精神负担。等等，在高峰时段实际上使它成为一个大数据问题。事实证明，依赖深度神经网络 DNN 的现代计算机视觉算法即使在资源受限和嵌入式执行场景下也能够执行此任务，例如快速、单级目标检测器的情况。然而，尚未在通用评估协议下对各种相关 DNN 组件方法进行比较实验评估，这意味着缺少可靠的交叉方法比较。本文正是提出了这样的比较评估，利用公共相关数据集和明确定义的方法来选择正在评估的特定 DNN 组件模块。

High-Degrees-of-Freedom Dynamic Neural Fields for Robot Self-Modeling and Motion Planning
Authors Lennart Schulze, Hod Lipson
机器人自身模型是机器人物理形态的与任务无关的表示，可在缺乏经典几何运动学模型的情况下用于运动规划任务。特别是，当后者难以设计或机器人的运动学发生意外变化时，人类自由自我建模是真正自主代理的必要特征。在这项工作中，我们利用神经场来允许机器人将其运动学自我建模为仅从用相机姿势和配置注释的 2D 图像学习的神经隐式查询模型。与依赖于深度图像或几何知识的现有方法相比，这具有更大的适用性。为此，除了课程数据采样策略之外，我们还提出了一种新的基于编码器的神经密度场架构，用于以大量自由度为条件的动态对象为中心的场景。在 7 DOF 机器人测试设置中，学习的自我模型实现了机器人工作空间尺寸 2 的倒角 L2 距离。

Animatable Virtual Humans: Learning pose-dependent human representations in UV space for interactive performance synthesis
Authors Wieland Morgenstern, Milena T. Bagdasarian, Anna Hilsmann, Peter Eisert
我们提出了一种新颖的虚拟人表示方法，用于在 3D 应用程序中实现高度逼真的实时动画和渲染。我们从最先进的多视图视频重建获得的高精度动态网格序列中学习姿势相关的外观和几何形状。从网格序列中学习姿势相关的外观和几何形状提出了重大挑战，因为它需要网络学习人体复杂的形状和关节运动。然而，像 SMPL 这样的统计身体模型提供了宝贵的先验知识，我们可以利用这些先验知识来限制搜索空间的维度，从而实现更高效、更有针对性的学习并定义姿势依赖性。我们不是直接学习绝对姿态相关的几何形状，而是学习观察到的几何形状和拟合的 SMPL 模型之间的差异。这使我们能够在 SMPL 模型的一致 UV 空间中对姿势相关的外观和几何进行编码。

Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints
Authors Chuan Fang, Xiaotao Hu, Kunming Luo, Ping Tan
文本驱动的 3D 室内场景生成可用于游戏、电影行业和 AR VR 应用。然而，现有方法无法忠实地捕捉房间布局，也不允许灵活编辑房间中的各个对象。为了解决这些问题，我们推出了 Ctrl Room，它能够仅通过文本提示生成具有设计师风格布局和高保真纹理的令人信服的 3D 房间。此外，Ctrl Room 还支持多种交互式编辑操作，例如调整大小或移动单个家具项目。我们的主要见解是将布局和外观的建模分开。如何对同时考虑场景纹理和几何形状的房间进行建模。为此，我们提出的方法由两个阶段组成：布局生成阶段和外观生成阶段。布局生成阶段训练文本条件扩散模型，以通过我们的整体场景代码参数化来学习布局分布。接下来，外观生成阶段采用微调的 ControlNet，根据 3D 场景布局和文本提示生成生动的房间全景图像。通过这种方式，我们实现了具有令人信服的布局和生动的纹理的高质量 3D 房间。受益于场景代码参数化，我们可以通过掩模引导编辑模块轻松编辑生成的房间模型，而无需昂贵的编辑特定培训。

BID-NeRF: RGB-D image pose estimation with inverted Neural Radiance Fields
Authors goston Istv n Csehi, Csaba M t J zsa
我们的目标是改进反向神经辐射场 iNeRF 算法，该算法将图像姿态估计问题定义为基于 NeRF 的迭代线性优化。 NeRF 是新颖的神经空间表示模型，可以合成现实世界场景或物体的逼真新颖视图。我们的贡献如下：我们使用基于深度的损失函数扩展了定位优化目标，我们引入了基于多图像的损失函数，其中使用具有已知相对姿势的图像序列而不增加计算复杂度，我们在体积渲染期间省略了分层采样，意味着仅使用粗略模型进行姿态估计，我们如何通过扩展采样间隔收敛来实现甚至或更高的初始姿态估计误差。

Towards Unified Deep Image Deraining: A Survey and A New Benchmark
Authors Xiang Chen, Jinshan Pan, Jiangxin Dong, Jinhui Tang
近年来，由于有效的图像先验和深度学习模型的出现，图像去雨方面取得了重大进展。由于每种除雨方法都有单独的设置，例如训练和测试数据集、评估标准，因此如何公平地全面评估现有方法并不是一项简单的任务。尽管现有的调查旨在全面审查图像除雨方法，但很少有研究侧重于提供统一的评估设置来检验图像除雨能力和实用性评估。在本文中，我们对现有的图像去雨方法进行了全面的回顾，并提供了一个统一的评估设置来评估图像去雨方法的性能。我们构建了一个名为 HQ RAIN 的新高质量基准来进一步进行广泛的评估，该基准由 5,000 配对的具有更高和谐性和真实感的高分辨率合成图像组成。我们还讨论了现有的挑战，并强调了一些值得探索的未来研究机会。为了方便广大用户复制和跟踪最新的除雨技术，我们建立了一个在线平台，提供现成的工具包，涉及大规模的性能评估。

3D-Aware Hypothesis & Verification for Generalizable Relative Object Pose Estimation
Authors Chen Zhao, Tong Zhang, Mathieu Salzmann
解决可概括的物体姿态估计问题的现有方法高度依赖于对未见物体的密集视图。相比之下，我们解决的是只有对象的单个参考视图可用的情况。我们的目标是估计该参考视图和以不同姿势描绘对象的查询图像之间的相对对象姿势。在这种情况下，由于测试期间存在看不见的对象以及参考和查询之间的大规模对象构成变化，因此鲁棒的泛化势在必行。为此，我们提出了一种新的假设和验证框架，在该框架中我们生成并评估多个姿势假设，最终选择最可靠的一个作为相对对象姿势。为了衡量可靠性，我们引入了 3D 感知验证，该验证将 3D 变换显式应用于从两个输入图像中学习到的 3D 对象表示。

V2X Cooperative Perception for Autonomous Driving: Recent Advances and Challenges
Authors Tao Huang, Jianan Liu, Xi Zhou, Dinh C. Nguyen, Mostafa Rahimi Azghadi, Yuxuan Xia, Qing Long Han, Sumei Sun
准确的感知对于推进自动驾驶和解决现代交通系统的安全挑战至关重要。尽管计算机视觉在物体识别方面取得了重大进展，但当前的感知方法在复杂的现实世界交通环境中仍然面临困难。对于单个车辆系统来说，物理遮挡和有限的传感器视野等挑战仍然存在。配合车联网 V2X 技术的感知 CP 已成为克服这些障碍并增强驾驶自动化系统的解决方案。虽然一些研究探索了 CP 的基本架构和关键组件，但仍然缺乏对最新创新的全面总结，特别是在 V2X 通信技术的背景下。为了弥补这一差距，本文全面概述了 CP 技术的演变，从早期探索到最新发展，包括 V2X 通信技术的进步。此外，还提出了一个当代通用框架来说明基于 V2X 的 CP 工作流程，有助于对 CP 系统组件的结构化理解。此外，本文还根据当前基于 V2X 的 CP 方法所解决的关键问题对它们进行了分类。在该分类法中进行了广泛的文献综述，评估了现有的数据集和模拟器。

PrototypeFormer: Learning to Explore Prototype Relationships for Few-shot Image Classification
Authors Feihong He, Gang Li, Lingyu Si, Leilei Yan, Fanzhang Li, Fuchun Sun
很少有镜头图像分类因解决新类别中样本有限而分类性能不佳的挑战而受到相当大的关注。然而，许多研究采用复杂的学习策略和多样化的特征提取方法来解决这个问题。在本文中，我们提出了名为 PrototypeFormer 的方法，该方法旨在通过探索原型关系来显着推进传统的少镜头图像分类方法。具体来说，我们利用变压器架构来构建原型提取模块，旨在提取对少数镜头分类更具辨别力的类表示。此外，在模型训练过程中，我们提出了一种基于对比学习的优化方法，以在少数镜头学习场景中优化原型特征。尽管很简单，但该方法的性能非常好，没有任何花里胡哨的东西。我们已经在几个流行的少数镜头图像分类基准数据集上对我们的方法进行了实验，这表明我们的方法优于当前所有最先进的方法。特别是，我们的方法在 miniImageNet 的 5 way 5 shot 和 5 way 1 shot 任务上达到了 97.07 和 90.88，分别以 7.27 和 8.72 的准确率超越了最先进的结果。

Exploring DINO: Emergent Properties and Limitations for Synthetic Aperture Radar Imagery
Authors Joseph A. Gallego Mejia, Anna Jungbluth, Laura Mart nez Ferrer, Matt Allen, Francisco Dorr, Freddie Kalaitzis, Ra l Ramos Poll n
自监督学习 SSL 模型最近在各种任务（包括图像分割）中表现出了卓越的性能。本研究深入研究了无标签 DINO 算法自蒸馏的新特征及其在合成孔径雷达 SAR 图像中的应用。我们使用未标记的 SAR 数据预训练基于视觉变换器 ViT 的 DINO 模型，然后微调模型以预测高分辨率土地覆盖图。我们严格评估 ViT 主干生成的注意力图的效用，并将其与模型的令牌嵌入空间进行比较。我们观察到与从头开始训练相比，预训练的模型性能略有提高，并讨论了 SSL 在遥感和土地覆盖分割方面的局限性和机遇。除了性能的小幅提升之外，我们还表明 ViT 注意力图对于遥感具有巨大的内在价值，并且可以为其他算法提供有用的输入。

RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing
Authors Antoine Scardigli, Lukas Cavigelli, Lorenz K. M ller
蒙特卡罗路径追踪是一种用于逼真图像合成的强大技术，但在低样本数时会受到高水平噪声的影响，限制了其在实时应用中的使用。为了解决这个问题，我们提出了一个框架，对采样重要性网络、潜在空间编码器网络和降噪器网络进行端到端训练。我们的方法使用强化学习来优化采样重要性网络，从而避免显式的数值近似梯度。我们的方法不会通过平均来聚合每个像素的采样值，而是保留所有采样值，然后将其馈送到潜在空间编码器中。编码器通过学习潜在空间中的表示来取代手工制作的时空启发法。最后，训练神经降噪器来细化输出图像。

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
Authors Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
文本到图像的生成是现代计算机视觉中的一个重要领域，并且通过生成架构的发展取得了实质性的改进。其中，基于扩散的模型已经证明了基本的质量增强。这些模型通常分为两类：像素级方法和潜在级方法。我们提出了 Kandinsky1，这是一种对潜在扩散架构的新颖探索，将图像先验模型的原理与潜在扩散技术相结合。图像先验模型被单独训练，以将文本嵌入映射到 CLIP 的图像嵌入。该模型的另一个显着特征是改进的 MoVQ 实现，它充当图像自动编码器组件。总体而言，设计的模型包含3.3B个参数。我们还部署了一个用户友好的演示系统，支持多种生成模式，例如文本到图像生成、图像融合、文本和图像融合、图像变体生成和文本引导修复修复。此外，我们还发布了康定斯基模型的源代码和检查点。

Ammonia-Net: A Multi-task Joint Learning Model for Multi-class Segmentation and Classification in Tooth-marked Tongue Diagnosis
Authors Shunkai Shi, Yuqi Wang, Qihui Ye, Yanran Wang, Yiming Zhu, Muhammad Hassan, Aikaterini Melliou, Dongmei Yu
在中医看来，舌头上的齿痕是由于长期牙齿受压而产生的，是评估气阳虚弱的重要指标，而气阳虚弱与内脏健康有着内在的联系。齿痕舌的手动诊断完全依赖于经验。尽管如此，牙印形状、颜色和类型的多样性对诊断的准确性和一致性提出了挑战。为了解决这些问题，我们提出了一种名为 Ammonia Net 的多任务联合学习模型。该模型采用基于卷积神经网络的架构，专为舌头图像的多类分割和分类而设计。 Ammonia Net 对舌头图像进行语义分割，以识别舌痕和牙痕。在分割输出的帮助下，它将图像分类为所需数量的类健康舌、轻度舌、中度舌和重度舌。据我们所知，这是将牙痕语义分割结果应用于牙痕舌分类的首次尝试。为了训练 Ammonia Net，我们收集了 856 名受试者的 856 张舌头图像。经过大量的大量实验，实验结果表明，所提出的模型在牙标舌识别的二类分类任务中达到了 99.06 的准确率和 80.02 的准确率。

Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization
Authors Edward Fish, Jon Weinbren, Andrew Gilbert
时间动作本地化 TAL 旨在识别未修剪视频中的动作开始、结束和类标签。虽然最近使用 Transformer 网络和特征金字塔网络 FPN 的进步增强了 TAL 任务中的视觉特征识别，但在将音频特征集成到此类框架中方面进展甚微。本文介绍了多分辨率视听特征融合 MRAV FF，这是一种跨不同时间分辨率合并视听数据的创新方法。我们方法的核心是分层门控交叉注意机制，该机制能够敏锐地权衡不同时间尺度下音频信息的重要性。这种技术不仅提高了回归边界的精度，而且还增强了分类置信度。

Mitigating the Influence of Domain Shift in Skin Lesion Classification: A Benchmark Study of Unsupervised Domain Adaptation Methods on Dermoscopic Images
Authors Sireesha Chamarthi, Katharina Fogelberg, Roman C. Maron, Titus J. Brinker, Julia Niebling
深度神经网络在皮肤病变分类方面的潜力已被证明与皮肤科医生的诊断不相上下，甚至优于皮肤科医生的诊断。然而，当测试数据与训练数据显着不同（即域转移）时，这些模型的性能通常会恶化。这对于用于现实世界皮肤病变分类任务的模型的限制给患者带来了风险。例如，不同的图像采集系统或患者身上以前未见过的解剖部位足以引起这种域的变化。因此，减轻此类转变的负面影响至关重要，但事实证明，开发有效的方法来解决领域转变具有挑战性。在这项研究中，我们对八种不同的无监督域适应方法进行了深入分析，以分析它们在提高皮肤镜数据集泛化方面的有效性。为了确保我们的研究结果的稳健性，我们在总共十个不同的数据集上测试了每种方法，从而涵盖了各种可能的领域转变。此外，我们还研究了域转移数据集中的哪些因素对域适应方法的有效性有影响。我们的研究结果表明，所有八种领域适应方法都能改善大多数分析数据集的 AUPRC。总而言之，这些结果表明，无论域转移的性质如何，无监督的域适应通常都会导致二元黑色素瘤痣分类任务的性能提高。

Robust Zero Level-Set Extraction from Unsigned Distance Fields Based on Double Covering
Authors Fei Hou, Xuhui Chen, Wencheng Wang, Hong Qin, Ying He
在本文中，我们提出了一种称为 DoubleCoverUDF 的新方法，用于从无符号距离场 UDF 中提取零水平集。 DoubleCoverUDF 将学习的 UDF 和用户指定的参数 r（一个小的正实数）作为输入，并使用传统的移动立方体算法提取具有 iso 值 r 的 iso 曲面。我们表明，计算的等值面是目标零水平集 S 的 r 偏移体积的边界，无论 S 的拓扑如何，它都是可定向流形。接下来，该算法计算覆盖图以将边界网格投影到 S 上，保留网格的拓扑并避免折叠。如果 S 是可定向流形表面，我们的算法使用稳健的最小切割后处理步骤将双层网格分成单层。否则，它将保留双层网格作为输出。我们通过重建开放模型的 3D 表面来验证我们的算法，并在合成模型和基准数据集上展示其功效和有效性。我们的实验结果证实，我们的方法是稳健的，并且在视觉评估和定量测量方面产生的网格质量比现有的基于 UDF 的方法更好。

FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators
Authors Haiping Wang, Yuan Liu, Bing Wang, Yujing Sun, Zhen Dong, Wenping Wang, Bisheng Yang
匹配图像和点云之间的跨模态特征是图像到点云配准的基本问题。然而，由于图像和点之间的模态差异，通过现有的特征匹配度量学习方法很难学习鲁棒性和判别性的跨模态特征。我们建议首先通过预训练的大型模型来统一图像和点云之间的模态，然后在同一模态内建立鲁棒的对应关系，而不是在跨模态数据上应用度量学习。我们表明，通过深度到图像扩散模型提取的中间特征（称为扩散特征）在图像和点云之间在语义上是一致的，这使得能够构建粗糙但鲁棒的跨模态对应。我们进一步提取单目深度估计器生成的深度图上的几何特征。通过匹配此类几何特征，我们显着提高了扩散特征产生的粗略对应的准确性。大量实验表明，无需任何特定任务的训练，直接利用这两个特征即可产生准确的图像到点云配准。

A Complementary Global and Local Knowledge Network for Ultrasound denoising with Fine-grained Refinement
Authors Zhenyu Bu, Kai Ni Wang, Fuxing Zhao, Shengxiao Li, Guang Quan Zhou
超声成像是临床检查中常用的有效且非侵入性的诊断工具。然而，超声图像中散斑噪声的存在总是会降低图像质量，阻碍后续任务（例如分割和分类）的性能。现有的散斑降噪方法经常会导致图像过度平滑或无法充分保留详细信息。在本文中，我们提出了一种互补的全局和局部知识网络，用于具有细粒度细化的超声去噪。最初，所提出的架构采用 L CSwinTransformer 作为编码器来捕获全局信息，并结合 CNN 作为解码器来融合局部特征。与原始 CSwinTransformer 相比，我们在不同阶段扩展了特征的分辨率，以提取更多的全局信息。随后，我们将细粒度细化块 FRB 集成到跳跃连接阶段以进一步增强功能。我们在两个公共数据集 HC18 和 BUSI 上验证了我们的模型。实验结果表明，我们的模型在定量指标和视觉表现方面都可以实现有竞争力的表现。

Learning to Simplify Spatial-Temporal Graphs in Gait Analysis
Authors Adrian Cosma, Emilian Radoi
步态分析利用独特的行走模式进行跨多个领域的人员识别和评估。在用于步态分析的方法中，基于骨架的方法由于其稳健且可解释的特征而显示出前景。然而，这些方法通常依赖于基于人体解剖学的手工制作的时空图，而忽略了数据集和任务的特殊性。本文提出了一种新方法来简化基于步态的性别估计的时空图表示，在不损失性能的情况下提高可解释性。我们的方法采用两个模型，上游模型和下游模型，可以调整每个步行实例的邻接矩阵，从而消除图的固定性质。通过采用 Straight Through Gumbel Softmax 技巧，我们的模型可以进行端到端训练。我们在 CASIA B 数据集上证明了我们的方法对于基于步态的性别估计的有效性。生成的图表是可解释的，并且与现有模型中使用的固定图表有质的不同。

OpenPatch: a 3D patchwork for Out-Of-Distribution detectionpdf icon
Authors Paolo Rabino, Antonio Alliegro, Francesco Cappio Borlino, Tatiana Tommasi
将深度学习模型从实验室环境转移到开放世界需要让它们做好应对不可预见条件的准备。在一些应用程序中，部署过程中出现的新类会带来重大威胁，因此有效检测它们至关重要。理想情况下，应该在需要时使用这项技能，而不需要在每个新任务中进行任何进一步的计算训练。分布外检测在过去几年中引起了极大的关注，但是大多数研究涉及 2D 图像，忽略了现实世界固有的 3D 性质，并且经常混淆领域和语义新颖性。在这项工作中，我们关注后者，考虑 3D 点云捕获的对象几何结构，而不考虑特定领域。我们通过引入 OpenPatch 来推进该领域的发展，它建立在大型预训练模型的基础上，并简单地从其中间特征中提取一组描述每个已知类别的补丁表示。对于任何新样本，我们通过评估它是否可以主要通过单个已知类的补丁或更确切地说通过多个类的贡献来重构来获得新颖性分数。当参考已知数据是合成的时，我们对现实世界点云样本的语义新颖性检测任务的方法进行了广泛的实验评估。我们证明 OpenPatch 在完整和少量已知样本场景中均表现出色，展示了其在不同预训练目标和网络主干上的稳健性。

ACT-Net: Anchor-context Action Detection in Surgery Videos
Authors Luoying Hao, Yan Hu, Wenjun Lin, Qun Wang, Heng Li, Huazhu Fu, Jinming Duan, Jiang Liu
手术细节动作的识别和定位是开发上下文感知决策支持系统的重要组成部分。然而，大多数现有的检测算法即使有位置也无法提供高精度的动作类，因为它们没有考虑手术过程在整个视频中的规律性。这种限制阻碍了它们的应用。此外，在临床应用中实施预测需要认真传达模型置信度以赢得信任，这在手术动作预测中尚未探索。在本文中，为了准确检测每时每刻发生的细粒度动作，我们提出了一种锚上下文动作检测网络 ACTNet ，包括锚上下文检测 ACD 模块和类条件扩散 CCD 模块，以回答以下问题 1 动作在哪里发生 2 采取什么行动 3 置信度预测如何。具体来说，所提出的 ACD 模块在空间和时间上突出显示与手术视频中提取的锚点交互的区域，该区域根据锚点上下文交互输出动作位置及其类别分布。考虑到视频中动作类别的完整分布，CCD 模块采用基于 ACD 估计器的基于去噪扩散的生成模型，以进一步准确地重建动作预测。此外，我们利用扩散模型输出的随机性来获取每个预测的模型置信度。

Point-Based Radiance Fields for Controllable Human Motion Synthesis
Authors Haitao Yu, Deheng Zhang, Peiyuan Xie, Tianyi Zhang
本文提出了一种基于静态点辐射场的精细变形可控人体运动合成方法。尽管以前的可编辑神经辐射场方法可以在新颖的视图合成上产生令人印象深刻的结果并允许简单变形，但很少有算法可以实现复杂的 3D 人类编辑，例如正向运动学。我们的方法利用显式点云来训练静态 3D 场景，并通过使用变形 MLP 对点云平移进行编码来应用变形。为了确保渲染结果与规范空间训练一致，我们使用 SVD 估计局部旋转，并将每点旋转插值到预训练的辐射场的查询视图方向。

Realistic Speech-to-Face Generation with Speech-Conditioned Latent Diffusion Model with Face Prior
Authors Jinting Wang, Li Liu, Jun Wang, Hei Victor Cheng
面部语音生成是一个有趣的研究领域，重点是根据说话者的音频语音生成逼真的面部图像。然而，采用基于 GAN 的架构的最先进方法缺乏稳定性，并且无法生成逼真的面部图像。为了填补这一空白，我们提出了一种新颖的面对面语音生成框架，该框架利用了称为 SCLDM 的语音条件潜在扩散模型。据我们所知，这是第一项利用扩散模型的卓越建模能力来生成语音的工作。保留语音和面部之间共享的身份信息对于生成真实的结果至关重要。因此，我们对语音编码器和面部编码器都采用对比预训练。这种预训练策略有助于语音属性（例如年龄和性别）与人脸图像中相应的面部特征之间的有效对齐。此外，我们还解决了由扩散模型引起的合成过程中过度多样性带来的挑战。为了克服这一挑战，我们通过在扩散过程之前整合统计面来引入残差的概念。这一添加有助于消除面部的共享成分，并增强语音条件捕获的细微变化。广泛的定量、定性和用户研究实验表明，我们的方法可以产生更真实的面部图像，同时比最先进的方法更好地保留说话者的身份。

CSI: Enhancing the Robustness of 3D Point Cloud Recognition against Corruption
Authors Zhuoyuan Wu, Jiachen Sun, Chaowei Xiao
尽管点云识别的深度神经网络最近取得了进展，但由于不可避免的数据损坏，现实世界的安全关键应用面临着挑战。当前的模型通常无法推广到不可预见的分布变化。在本研究中，我们利用点云数据固有的集合属性引入一种新颖的关键子集识别CSI方法，旨在增强面对数据损坏时的识别鲁棒性。我们的 CSI 框架集成了两个关键组件：密度感知采样 DAS 和自熵最小化 SEM，分别迎合静态和动态 CSI。 DAS 通过考虑局部密度来确保高效稳健的锚点采样，而 SEM 在训练过程中用于强调最显着的点对点注意力。评估显示，我们的 CSI 方法在 ModelNet40 C 和 PointCloud C 上的错误率分别为 18.4 和 16.3，这标志着在各自基准上比最先进的方法有了显着的改进，分别提高了 5.2 和 4.2。

Robust Representation Learning via Asymmetric Negative Contrast and Reverse Attention
Authors Nuoyan Zhou, Decheng Liu, Dawei Zhou, Xinbo Gao, Nannan Wang
深度神经网络很容易受到对抗性噪声的影响。对抗性训练 AT 已被证明是保护神经网络不被愚弄的最有效的防御策略。然而，我们发现 AT 忽略了学习鲁棒特征，导致对抗鲁棒性表现不佳。为了解决这个问题，我们强调了鲁棒表示的两个特征：1bf排除自然示例的特征远离其他类的特征2bf对齐自然和相应对抗性示例的特征彼此接近。这些促使我们提出一个通用的 AT 框架，通过不对称的负对比和反向注意力来获得鲁棒的表示。具体来说，我们根据预测概率设计不对称负对比度，以排除特征空间中不同类别的示例。此外，我们提出通过线性分类器的参数对特征进行加权作为反向注意力，以获得类感知特征并拉近同一类的特征。对三个基准数据集的实证评估表明，我们的方法极大地提高了 AT 的鲁棒性，并实现了最先进的性能。

Combining Datasets with Different Label Sets for Improved Nucleus Segmentation and Classification
Authors Amruta Parulekar, Utkarsh Kanwat, Ravi Kant Gupta, Medha Chippa, Thomas Jacob, Tripti Bameta, Swapnil Rane, Amit Sethi
使用深度神经网络 DNN 对组织病理学图像中的细胞核进行分割和分类，可以通过自动化细胞计数和形态测量评估来节省病理学家诊断各种疾病（包括癌症）的时间。现在众所周知，DNN 的准确性随着可用于训练的带注释数据集的大小而增加。尽管具有核注释和类别标签的组织病理学图像的多个数据集已公开，但这些数据集中的类别标签集有所不同。我们提出了一种训练 DNN 的方法，用于在多个数据集上进行实例分割和分类，其中跨数据集的类集相关但不相同。具体来说，我们的方法旨在利用从粗到细的类层次结构，其中数据集中标记和注释的类集可以位于层次结构的任何级别，只要这些类是互斥的。在数据集中，类集甚至不需要位于类层次结构树的同一级别。我们的结果表明，数据集测试分割所使用的类集的分割和分类指标可以通过对另一个数据集进行预训练来改进，由于我们的方法启用了训练集的扩展，该数据集甚至可能具有不同的类集。此外，通过将多个其他数据集与不同的类集相结合进行训练，也可以改进对以前未见过的数据集的泛化。改进是质的和量的。

Denoising Diffusion Step-aware Models
Authors Shuai Yang, Yukang Chen, Luozhou Wang, Shu Liu, Yingcong Chen
去噪扩散概率模型 DDPM 已在各个领域的数据生成中广受欢迎。然而，一个重要的瓶颈是生成过程的每一步都需要进行全网络计算，从而导致较高的计算开销。本文提出了一种新颖的框架，即去噪扩散步骤感知模型 DDSM 来应对这一挑战。与传统方法不同，DDSM 采用一系列神经网络，其大小根据每个生成步骤的重要性进行调整，通过进化搜索确定。这种逐步的网络变化有效地规避了冗余的计算工作，特别是在不太关键的步骤中，从而提高了扩散模型的效率。此外，步骤感知设计可以与其他效率驱动的扩散模型（例如 DDIM 和潜在扩散）无缝集成，从而扩大了计算节省的范围。实证评估表明，DDSM 为 CIFAR 10 节省了 49 计算量，为 CelebA HQ 节省了 61 计算量，为 LSUN 卧室节省了 59 计算量，为 AFHQ 节省了 71 计算量，为 ImageNet 节省了 76 计算量，所有这些都没有影响生成质量。

Continual Test-time Domain Adaptation via Dynamic Sample Selection
Authors Yanshuo Wang, Jie Hong, Ali Cheraghian, Shafin Rahman, David Ahmedt Aristizabal, Lars Petersson, Mehrtash Harandi
持续测试时域适应 CTDA 的目标是在不访问源数据的情况下逐渐使预训练模型适应一系列目标域。本文提出了一种CTDA动态样本选择DSS方法。 DSS 由动态阈值、正学习和负学习过程组成。传统上，模型从未标记的未知环境数据中学习，并同样依赖所有样本伪标签通过自训练来更新其参数。然而，这些伪标签中存在噪声预测，因此并非所有样本都同样值得信赖。因此，在我们的方法中，首先设计动态阈值模块来从高质量样本中选择可疑的低质量样本。所选的低质量样本更有可能被错误预测。因此，我们对高质量和低质量样本应用联合正负学习，以降低使用错误信息的风险。我们进行了大量的实验，证明了我们提出的 CTDA 方法在图像领域的有效性，优于最先进的结果。

Real-time Multi-modal Object Detection and Tracking on Edge for Regulatory Compliance Monitoring
Authors Jia Syuen Lim, Ziwei Wang, Jiajun Liu, Abdelwahed Khamis, Reza Arablouei, Robert Barlow, Ryan McAllister
跨不同工业领域的监管合规审计需要加强质量保证和可追溯性。目前的手动和间歇性审计方法带来了重大挑战，可能导致监控过程中的疏忽。为了解决这些问题，我们引入了一种实时多模态传感系统，该系统采用 3D 飞行时间和 RGB 相机，并结合边缘 AI 设备上的无监督学习技术。这使得连续的对象跟踪成为可能，从而提高记录保存的效率并最大限度地减少人工干预。

Investigating the Limitation of CLIP Models: The Worst-Performing Categories
Authors Jie Jing Shao, Jiang Xin Shi, Xiao Wen Yang, Lan Zhe Guo, Yu Feng Li
对比语言图像预训练 CLIP 通过将自然语言集成到视觉概念中提供了基础模型，从而实现了下游任务的零镜头识别。通常期望通过精心设计的文本提示可以在多个领域实现令人满意的整体准确性。然而，我们发现他们在最差类别中的表现明显逊色于整体表现。例如，在 ImageNet 上，尽管整体性能达到了 64.1 ，但总共有 10 个类别的类别精度低至 0 。这种现象揭示了与使用 CLIP 模型相关的潜在风险，特别是在特定类别非常重要的风险敏感应用中。为了解决这个问题，我们研究了 CLIP 模型中两种模式之间的一致性，并提出了类明智匹配裕度 cmm 来衡量推理混乱。 cmm可以有效地识别表现最差的类别并估计候选提示的潜在表现。我们进一步查询大型语言模型以丰富对表现最差类别的描述，并构建加权集成以突出有效的提示。

Can pre-trained models assist in dataset distillation?
Authors Yao Lu, Xuguang Chen, Yuchen Zhang, Jianyang Gu, Tianle Zhang, Yifan Zhang, Xiaoniu Yang, Qi Xuan, Kai Wang, Yang You
数据集蒸馏 DD 是一项重要的技术，它将大规模原始数据集中的知识封装到小型合成数据集中，以进行高效训练。同时，预训练模型 PTM 充当知识库，包含来自原始数据集的大量信息。这自然提出了一个问题：PTMs能否有效地将知识转移到合成数据集，从而准确指导DD。为此，我们进行了初步实验，证实了PTMs对DD的贡献。随后，我们系统地研究了 PTM 中的不同选项，包括初始化参数、模型架构、训练周期和领域知识，揭示了 1 增加模型多样性可以增强合成数据集的性能 2 次优模型也可以帮助 DD 并在以下方面优于训练有素的模型某些情况 3 领域特定的 PTM 对于 DD 来说不是强制性的，但合理的领域匹配至关重要。最后，通过选择最佳选项，我们显着提高了基线 DD 方法的跨架构泛化能力。我们希望我们的工作能够促进研究人员开发更好的 DD 技术。

SimVLG: Simple and Efficient Pretraining of Visual Language Generative Models
Authors Yiren Jian, Tingkai Liu, Yunzhe Tao, Soroush Vosoughi, HX Yang
在本文中，我们提出了 SimVLG，这是一种用于计算密集型视觉语言生成模型预训练的简化框架，利用冻结的预训练大型语言模型 LLM。视觉语言预训练 VLP 中的主流范式通常涉及两个阶段的优化过程，一个致力于通用视觉语言表示学习的初始资源密集阶段，旨在提取和巩固相关的视觉特征，然后是专注于端到端对齐的后续阶段视觉和语言模式之间。我们的单阶段单一损失框架通过在训练过程中逐渐合并相似的视觉标记来规避上述计算要求较高的第一阶段训练。这种逐渐合并的过程有效地压缩了视觉信息，同时保留了语义内容的丰富性，从而在不牺牲性能的情况下实现快速收敛。我们的实验表明，我们的方法可以将视觉语言模型的训练速度提高 5 倍，而不会对整体性能产生明显影响。此外，我们还表明，我们的模型只需 1 10 的数据即可实现与当前视觉语言模型相当的性能。

PoseAction: Action Recognition for Patients in the Ward using Deep Learning Approaches
Authors Zherui Li, Raye Chen Hua Yeow
实时智能检测和预测受试者行为，特别是他们的动作或动作，在病房中至关重要。这种方法的优点是可以降低医院护理成本并提高医护人员的效率，尤其是在夜间或入院高峰期的情况下。因此，在这项工作中，我们建议使用计算机视觉 CV 和深度学习 DL 方法来检测主体并识别他们的行为。我们利用 OpenPose 作为准确的主体检测器来识别视频流中人类主体的位置。此外，我们采用 AlphAction 的异步交互聚合 AIA 网络来预测检测到的主体的行为。提出了这种集成模型，称为 PoseAction。同时，使用 NTU RGB D 和 NTU RGB D 120 数据集的医疗相关视频片段，对所提出的模型进行进一步训练，以预测病房区域的 12 种常见动作，例如摇摇晃晃、胸痛和跌倒。结果表明，PoseAction 实现了最高分类 mAP 98.72 IoU 0.5 。此外，本研究开发了一种在线实时动作识别模式，有力支持了PoseAction的临床转化。此外，利用OpenPose的人脸关键点识别功能，我们还实现了人脸模糊，这是解决患者和医护人员隐私保护问题的实用解决方案。然而，目前 PoseAction 的训练数据有限，特别是在标签多样性方面。

Classifying Whole Slide Images: What Matters?
Authors Long Nguyen, Aiden Nibali, Joshua Millward, Zhen He
最近，已经提出了许多用于对非常高分辨率的整个幻灯片图像 WSI 进行分类的算法。这些新算法主要专注于寻找新颖的方法来组合从幻灯片中提取的小局部补丁的信息，重点是为最终预测器有效聚合更多全局信息。在本文中，我们深入探讨了 WSI 分类算法的不同关键设计选择，以研究对于实现高精度而言最重要的因素。令人惊讶的是，我们发现捕获全局上下文信息并不一定意味着更好的性能。捕获最多全局信息的模型始终比捕获较少全局信息的模型表现更差。此外，一种非常简单的不捕获全局信息的多实例学习方法的性能几乎与捕获大量全局信息的模型一样好。这些结果表明，有效 WSI 分类的最重要特征是在局部小斑块水平上捕获的，其中细胞和组织微环境细节最为明显。另一个令人惊讶的发现是，与对包含目标癌症在内的 7 种癌症的较小数据集进行预训练相比，对包含 33 种癌症的较大数据集进行无监督预训练的性能明显较差。

Ablation Study to Clarify the Mechanism of Object Segmentation in Multi-Object Representation Learning
Authors Takayuki Komatsu, Yoshiyuki Ohmura, Yasuo Kuniyoshi
多对象表示学习旨在使用多个对象的组合来表示复杂的现实世界视觉输入。表示学习方法通常使用无监督学习将输入图像分割成单个对象并将这些对象编码到每个潜在向量中。然而，目前尚不清楚以前的方法如何实现对单个对象的适当分割。此外，大多数先前的方法使用变分自动编码器 VAE 来规范潜在向量。因此，尚不清楚 VAE 正则化是否有助于适当的对象分割。为了阐明多对象表示学习中对象分割的机制，我们对典型方法 MONet 进行了消融研究。 MONet 使用由注意力掩模和与注意力掩模相对应的潜在向量组成的对来表示多个对象。每个潜在向量都是根据输入图像和注意掩模进行编码的。然后，从每个潜在向量中解码分量图像和注意掩模。 MONet 的损失函数由 1 输入图像和解码分量图像之间的重建损失之和、2 潜在向量的 VAE 正则化损失和 3 显式编码形状信息的注意掩模的重建损失组成。我们对这三个损失函数进行了消融研究，以研究其对分割性能的影响。我们的结果表明，VAE 正则化损失不会影响分割性能，而其他损失确实会影响分割性能。基于这个结果，我们假设最大化由对应于注意掩模的单个潜在向量最好地表示的图像区域的注意掩模是很重要的。

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models
Authors Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang
扩散模型在图像合成和相关生成任务中表现出了卓越的能力。然而，它们在低延迟现实世界应用中的实用性受到大量计算成本和延迟问题的限制。量化是压缩和加速扩散模型的主要方式，其中训练后量化 PTQ 和量化感知训练 QAT 是两种主要方法，每种方法都有自己的属性。虽然 PTQ 在时间和数据使用方面都表现出效率，但它可能会导致低位宽下的性能下降。另一方面，QAT 可以缓解性能下降，但对计算和数据资源有大量要求。为了利用各自的优点，同时避免各自的缺点，我们为低位扩散模型引入了一种无数据且参数高效的微调框架，称为 EfficientDM，以实现 QAT 级别的性能和类似 PTQ 的效率。具体来说，我们提出了低秩适配器 QALoRA 的量化感知变体，它可以与模型权重合并并联合量化为低位宽。微调过程将全精度模型的去噪能力提炼为量化模型，从而消除了对训练数据的需求。我们还引入了尺度感知优化，并采用时间学习步长量化来进一步提高性能。大量的实验结果表明，我们的方法显着优于之前基于 PTQ 的扩散模型，同时保持相似的时间和数据效率。具体来说，在 ImageNet 256x256 上量化 LDM 4 至 4 位的权重和激活时，sFID 仅略微增加 0.05。

A Large-Scale 3D Face Mesh Video Dataset via Neural Re-parameterized Optimization
Authors Kim Youwang, Lee Hyun, Kim Sung Bin, Suekyeong Nam, Janghoon Ju, Tae Hyun Oh
我们提出了 NeuFace，一种通过神经重新参数化优化对视频进行 3D 人脸网格伪注释方法。尽管 3D 人脸重建方法取得了巨大进步，但为野外动态视频生成可靠的 3D 人脸标签仍然具有挑战性。使用 NeuFace 优化，我们在大规模人脸视频（称为 NeuFace 数据集）上对每个视图帧精确且一致的人脸网格进行注释。我们研究神经重新参数化如何通过梯度分析帮助在 3D 网格上重建图像对齐的面部细节。通过利用数据集中 3D 人脸的自然性和多样性，我们展示了数据集对于 3D 人脸相关任务的有用性，提高了现有 3D 人脸重建模型的重建精度并先验学习 3D 人脸运动。

Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models
Authors An Yan, Yu Wang, Yiwu Zhong, Zexue He, Petros Karypis, Zihan Wang, Chengyu Dong, Amilcare Gentili, Chun Nan Hsu, Jingbo Shang, Julian McAuley
医学图像分类是医疗保健的一个关键问题，有可能减轻医生的工作量并促进患者的诊断。然而，将深度学习模型部署到现实世界的医疗保健应用程序时会出现两个挑战。首先，神经模型倾向于学习虚假相关性而不是所需的特征，这在推广到新领域（例如不同年龄的患者）时可能会出现不足。其次，这些黑盒模型缺乏可解释性。在进行诊断预测时，了解模型出于可信和安全考虑而做出决策的原因非常重要。在本文中，为了解决这两个限制，我们提出了一种新的范式，用自然语言概念构建鲁棒且可解释的医学图像分类器。具体来说，我们首先从 GPT 4 中查询临床概念，然后使用视觉语言模型将潜在图像特征转换为显式概念。我们在八个医学图像分类数据集上系统地评估我们的方法，以验证其有效性。在具有强混杂因素的挑战性数据集上，我们的方法可以减轻虚假相关性，从而大大优于标准视觉编码器和其他基线。

ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time Measurements
Authors Bryan Bo Cao, Abrar Alali, Hansi Liu, Nicholas Meegan, Marco Gruteser, Kristin Dana, Ashwin Ashok, Shubham Jain
跟踪视频中的主体是基于摄像头的物联网应用中最广泛使用的功能之一，例如安全监控、智慧城市交通安全增强、车辆与行人通信等。在计算机视觉领域，跟踪通常是通过首先检测具有边界框的主体，然后将检测到的边界框跨视频帧关联来实现的。对于许多物联网系统来说，摄像机捕获的图像通常通过网络发送，以便在具有比边缘设备更强大的计算资源的不同站点进行处理。然而，通过网络发送整个帧会导致大量带宽消耗，可能超出系统带宽限制。为了解决这个问题，我们提出了 ViFiT，这是一种基于变压器的模型，可以根据手机数据 IMU 和精细时间测量重建视觉边界框轨迹。它利用了更好地建模长期时间序列数据的转换器能力。 ViFiT 在 Vi Fi 数据集上进行评估，Vi Fi 数据集是 5 个不同现实世界场景（包括室内和室外环境）中的大规模多模态数据集。为了填补联合捕获跟踪质量和视频带宽减少的系统特性的适当指标的空白，我们提出了一种新颖的评估框架，称为“最小所需帧 MRF”和“最小所需帧比率 MRFR”。

Shielding the Unseen: Privacy Protection through Poisoning NeRF with Spatial Deformation
Authors Yihan Wu, Brandon Y. Feng, Heng Huang
在本文中，我们介绍了一种利用神经辐射场 NeRF 模型的生成能力来保护用户隐私的创新方法。我们新颖的中毒攻击方法会导致观察到的视图发生变化，这些变化是人眼无法察觉的，但足以破坏 NeRF 准确重建 3D 场景的能力。为了实现这一目标，我们设计了一种双层优化算法，结合了基于投影梯度下降 PGD 的空间变形。我们在两个常见的 NeRF 基准数据集上广泛测试了我们的方法，该数据集包含 29 个具有高质量图像的真实世界场景。我们的结果令人信服地证明，我们的隐私保护方法显着损害了 NeRF 在这些基准数据集上的性能。此外，我们还表明我们的方法具有适应性和多功能性，可在各种扰动强度和 NeRF 架构中发挥作用。这项工作提供了对 NeRF 漏洞的宝贵见解，并强调在开发强大的 3D 场景重建算法时需要考虑此类潜在的隐私风险。

Reinforcement Learning-based Mixture of Vision Transformers for Video Violence Recognition
Authors Hamid Mohammadi, Ehsan Nazerfard, Tahereh Firoozi
基于深度学习的视频暴力识别涉及准确且可扩展的人类暴力识别。目前，大多数最先进的视频暴力识别研究都使用基于 CNN 的模型来表示和分类视频。然而，最近的研究表明，在各种视频分析基准上，预先训练的 Transformer 比基于 CNN 的模型更准确。然而，这些模型尚未针对视频暴力识别进行彻底评估。本文介绍了一种基于 Transformer 的新型 MoE 专家混合视频暴力识别系统。通过大型视觉变压器和高效变压器架构的智能组合，所提出的系统不仅利用了视觉变压器架构的优势，而且还降低了使用大型视觉变压器的成本。所提出的架构最大限度地提高了暴力识别系统的准确性，同时通过基于强化学习的路由器主动降低计算成本。

Privacy-preserving Multi-biometric Indexing based on Frequent Binary Patterns
Authors Daile Osorio Roig, Lazaro J. Gonzalez Soler, Christian Rathgeb, Christoph Busch
确保注册受试者隐私保护的大规模识别系统的开发是一个重大挑战。最近的要求是通过包含高效的多生物识别解决方案来提供互操作性和可用性的生物识别部署。在隐私保护的背景下，过去已经提出了几种模板保护方案。然而，这些方案似乎不足以索引生物特征识别系统中的工作量减少。更具体地说，它们已被用于执行详尽搜索的识别系统，导致计算效率下降。为了克服这些限制，我们提出了一种有效的隐私保护多生物特征识别系统，该系统检索受保护的深度可取消模板，并且与生物特征和生物特征模板保护方案无关。为此，设计了多生物特征分箱方案，以利用从不同类型的生物特征中提取的频繁二进制模式中包含的低类内变异特性。使用最先进的基于深度神经网络 DNN 的嵌入提取器在公开数据库上报告的实验结果表明，受保护的多生物特征识别系统可以将计算工作量减少到大约 57 个索引最多三种类型的生物特征和 53 个索引最多两种类型生物识别特征，同时提高基线生物识别系统在高安全阈值下的生物识别性能。

Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models
Authors Ivan Tang, Eric Zhang, Ray Gu
预训练大型模型的流行彻底改变了不同领域的下游任务，例如语言、视觉和多模态。为了最大限度地减少下游任务的适应成本，针对语言和 2D 图像预训练模型提出了许多参数高效微调 PEFT 技术。然而，用于 3D 预训练模型的专用 PEFT 方法仍在探索中。为此，我们引入了 Point PEFT，这是一种新颖的框架，用于以最少的可学习参数调整点云预训练模型。具体来说，对于预训练的 3D 模型，我们冻结其大部分参数，仅在下游任务上调整新添加的 PEFT 模块，该模块由点先验提示和几何感知适配器组成。点先验提示采用一组可学习的提示标记，为此我们建议构建一个具有特定领域知识的记忆库，并利用无参数注意来增强提示标记。几何感知适配器旨在聚合空间邻域内的点云特征，以通过局部交互捕获细粒度的几何信息。大量实验表明，我们的 Point PEFT 可以在各种下游任务上实现比完全微调更好的性能，同时仅使用 5 个可训练参数，证明了我们方法的效率和有效性。

A quantum moving target segmentation algorithm for grayscale video
Authors Wenjie Liu, Lu Wang, Qingshan Wu
运动目标分割MTS旨在分割出视频中的运动目标，然而经典算法在当前视频时代面临着实时处理的巨大挑战。一些学者已经成功证明了在某些视频处理任务中的量子优势，但并未涉及运动目标分割。本文提出了一种针对灰度视频的量子运动目标分割算法，该算法可以利用量子机制同时计算所有相邻帧中所有像素的差异，然后快速分割出运动目标。此外，设计了一种可行的量子比较器来区分灰度值和阈值。然后详细设计了几个量子电路单元，包括三帧差分、二值化和AND运算，然后组合在一起构建了完整的用于分割运动目标的量子电路。对于 2 m 帧的量子视频，每帧都是具有 q 灰度级的 2 n 乘以 2 n 图像，我们的算法的复杂度可以降低到 O n 2 q 。与经典算法相比，它是指数级的加速，同时其复杂度也优于现有的量子算法。

Quantum image edge detection based on eight-direction Sobel operator for NEQR
Authors Wenjie Liu, Lu Wang
量子索贝尔边缘检测QSED是一种利用量子机制进行图像边缘检测的算法，可以解决经典算法遇到的实时性问题。然而，现有的QSED算法仅考虑两个或四个方向的Sobel算子，这导致在一些高清图像中边缘细节信息有一定的损失。本文提出了一种基于八方向Sobel算子的QSED算法，该算法不仅减少了边缘信息的损失，而且可以同时计算量子图像中所有像素的八方向梯度值。此外，还详细设计了由梯度计算、非极大值抑制、双阈值检测和边缘跟踪单元组成的具体量子电路。对于具有 q 灰度的 2 n x 2 n 图像，我们的算法的复杂度可以降低到 O n 2 q 2 ，这低于其他现有的经典或量子算法。

Benchmarking Local Robustness of High-Accuracy Binary Neural Networks for Enhanced Traffic Sign Recognition
Authors Andreea Postovan, M d lina Era cu
交通标志在自动驾驶系统的道路安全和交通管理中发挥着至关重要的作用。准确的交通标志分类至关重要，但由于现实世界的复杂性（例如对抗性示例和遮挡）而具有挑战性。

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning
Authors Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li
最近发布的 GPT 4 代码解释器在解决具有挑战性的数学问题方面表现出了卓越的能力，这主要归功于它能够使用自然语言无缝推理、生成代码、执行代码以及根据执行输出继续推理。在本文中，我们提出了一种微调开源语言模型的方法，使它们能够使用代码来建模和推导数学方程，从而增强它们的数学推理能力。我们提出了一种用数学问题及其基于代码的解决方案生成新颖且高质量数据集的方法，称为 MathCodeInstruct。每个解决方案都交织着自然语言、代码和执行结果。我们还引入了定制的监督微调和推理方法。这种方法产生了 MathCoder 模型，这是一系列能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是，MathCoder 模型在 MATH 45.2 和 GSM8K 83.9 数据集上在开源法学硕士中取得了最先进的分数，大大优于其他开源替代方案。值得注意的是，MathCoder 模型不仅在 GSM8K 和 MATH 上超越了 ChatGPT 3.5 和 PaLM 2，而且在竞赛级别 MATH 数据集上也超越了 GPT 4。

OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable Evasion Attacks
Authors Ofir Bar Tal, Adi Haviv, Amit H. Bermano
逃避攻击 EA 用于通过扭曲输入数据以误导模型进行不正确的分类来测试经过训练的神经网络的鲁棒性。创建这些攻击是一项具有挑战性的任务，尤其是随着模型和数据集的复杂性不断增加。在这项工作中，我们引入了一种自监督、计算经济的方法来生成对抗性示例，专为看不见的黑匣子设置而设计。我们的方法采用表示学习的技术，在流形 EA 上生成，鼓励这些 EA 类似于数据分布。在攻击训练过的模型时，这些攻击的有效性与现有技术相当，但在攻击未见过的模型时，这些攻击的有效性明显更高，因为攻击与数据而不是模型本身更相关。

Certification of Deep Learning Models for Medical Image Segmentation
Authors Othmane Laousy, Alexandre Araujo, Guillaume Chassagnon, Nikos Paragios, Marie Pierre Revel, Maria Vakalopoulou
在医学成像领域，分割模型在过去十年中取得了显着进步，现在每天都在临床实践中使用。然而，与分类模型类似，分割模型也会受到对抗性攻击的影响。在医疗保健等安全关键领域，验证模型预测至关重要。最近引入了随机平滑，并提供了一个框架来验证模型并获得理论保证。在本文中，我们首次提出基于随机平滑和扩散模型的经认证的医学成像分割基线。我们的结果表明，利用去噪扩散概率模型的力量有助于我们克服随机平滑的限制。我们对胸部 X 光、皮肤病变和结肠镜检查的五个公共数据集进行了广泛的实验，并根据经验表明，即使对于高度扰动的图像，我们也能够保持经过认证的高 Dice 分数。

CLEVRER-Humans: Describing Physical and Causal Events the Human Way
Authors Jiayuan Mao, Xuelin Yang, Xikun Zhang, Noah D. Goodman, Jiajun Wu
构建能够推理物理事件及其因果关系的机器对于与物理世界的灵活交互至关重要。然而，大多数现有的物理和因果推理基准完全基于合成生成的事件和因果关系的合成自然语言描述。这种设计带来了两个问题。首先，事件类型和自然语言描述都缺乏多样性；其次，基于手动定义的启发式的因果关系与人类的判断不同。为了解决这两个缺点，我们提出了 CLEVRER Humans 基准，这是一个视频推理数据集，用于使用人类标签对物理事件进行因果判断。我们采用两种技术来提高数据收集效率，首先是一种新颖的迭代事件完形填空任务，以引出视频中事件的新表示，我们将其称为因果事件图 CEG；其次是一种基于神经语言生成模型的数据增强技术。我们将收集的 CEG 转换为问题和答案，以与之前的工作保持一致。

Wasserstein Distortion: Unifying Fidelity and Realism
Authors Yang Qiu, Aaron B. Wagner, Johannes Ball , Lucas Theis
我们引入了一种图像失真测量方法，即 Wasserstein 失真，它一方面概括了像素级保真度，另一方面概括了真实感。我们展示了 Wasserstein 失真如何在不同的参数选择下以数学方式减少为纯保真度约束或纯现实主义约束。 Wasserstein 畸变下的一对接近的图像说明了它的实用性。特别是，我们生成的随机纹理对图像的一个位置中的参考纹理具有高保真度，并且当远离该点时平滑地过渡到纹理的独立实现。

How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound
Authors Menghan Yu, Sourabh Kulhare, Courosh Mehanian, Charles B Delahunt, Daniel E Shea, Zohreh Laverriere, Ishan Shah, Matthew P Horning
众所周知，获取大量数据和注释对于开发高性能深度学习模型非常有效，但在医疗保健领域实现起来却很困难且成本高昂。使用生成模型添加合成训练数据提供了一种有效应对数据稀缺挑战的低成本方法，还可以解决数据不平衡和患者隐私问题。在这项研究中，我们提出了一个全面的框架，可以无缝地融入医学图像分析的模型开发工作流程。我们使用不同大小的数据集来证明：i 生成模型作为数据增强方法的好处；ii 对抗性方法如何通过数据替换来保护患者隐私；iii 通过在真实的保留数据上测试模型，为这些用例提供新颖的性能指标。我们表明，使用合成数据和真实数据进行训练的效果优于仅使用真实数据进行的训练，并且仅使用合成数据训练的模型接近其真正的对应模型。

MedSynV1: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images
Authors Yanwu Xu, Li Sun, Wei Peng, Shyam Visweswaran, Kayhan Batmanghelich
本文介绍了一种在文本信息引导下生成高质量 3D 肺部 CT 图像的创新方法。虽然基于扩散的生成模型越来越多地用于医学成像，但当前最先进的方法仅限于低分辨率输出，并且未充分利用放射学报告的丰富信息。放射学报告可以通过提供额外的指导和对图像合成提供细粒度的控制来增强生成过程。然而，将文本引导生成扩展到高分辨率 3D 图像对记忆和解剖细节保留提出了重大挑战。为了解决内存问题，我们引入了一种使用修改后的 UNet 架构的分层方案。我们首先合成以文本为条件的低分辨率图像，作为后续完整体积数据生成器的基础。为了确保生成的样本的解剖学合理性，我们通过结合 CT 图像生成血管、气道和小叶分割掩模来提供进一步的指导。该模型演示了使用文本输入和分割任务生成合成图像的能力。比较评估的结果表明，与基于 GAN 和扩散技术的最先进模型相比，我们的方法表现出优越的性能，特别是在准确保留裂痕线、气道和血管结构等关键解剖特征方面。这项创新带来了新的可能性。这项研究的重点是两个主要目标：1 开发一种基于文本提示和解剖成分创建图像的方法；2 能够根据解剖元素生成新图像。

IceCloudNet: Cirrus and mixed-phase cloud prediction from SEVIRI input learned from sparse supervision
Authors Kai Jeggle, Mikolaj Czerkawski, Federico Serva, Bertrand Le Saux, David Neubauer, Ulrike Lohmann
含有冰粒的云在气候系统中发挥着至关重要的作用。然而，它们仍然是气候模型和未来气候预测的巨大不确定性来源。在这项工作中，我们在对地静止卫星仪器的时空覆盖范围和主动卫星检索的质量上创建了一个新的观测约束，该约束依赖于冰的微物理特性。我们通过在三年的 SEVIRI 和 DARDAR 数据集上训练卷积神经网络来实现这一目标。

BTDNet: a Multi-Modal Approach for Brain Tumor Radiogenomic Classification
Authors Dimitrios Kollias, Karanjot Vendal, Priyanka Gadhavi, Solomon Russom
脑肿瘤在全世界范围内构成了重大的健康挑战，其中胶质母细胞瘤是最具侵袭性的形式之一。准确测定 O6 甲基鸟嘌呤 DNA 甲基转移酶 MGMT 启动子甲基化状态对于个性化治疗策略至关重要。然而，传统方法是劳动密集型且耗时的。本文提出了一种新颖的多模式方法 BTDNet，利用多参数 MRI 扫描（包括 FLAIR、T1w、T1wCE 和 T2 3D 体积）来预测 MGMT 启动子甲基化状态。 BTDNet 解决了两个主要挑战：可变体积长度，即每个体积由不同数量的切片组成，以及体积级别注释，即整个 3D 体积被注释，而不是其组成的独立切片。 BTDNet 由四个组件组成：i 数据增强，执行几何变换、数据对凸组合和测试时间数据增强 ii 3D 分析，通过 CNN RNN 执行全局分析 iii 路由，包含处理变量的掩模层输入特征长度，以及 iv 模态融合，可以有效增强数据表示、减少歧义并缓解数据稀缺性。

Swin-Tempo: Temporal-Aware Lung Nodule Detection in CT Scans as Video Sequences Using Swin Transformer-Enhanced UNet
Authors Hossein Jafari, Karim Faez, Hamidreza Amindavar
肺癌具有极高的致死率，因此早期检测至关重要。然而，识别肺结节给放射科医生带来了巨大的挑战，他们严重依赖他们的专业知识和经验来进行准确的诊断。为了解决这个问题，基于机器学习技术的计算机辅助诊断系统应运而生，可以帮助医生从计算机断层扫描 CT 扫描中识别肺结节。不幸的是，该领域的现有网络经常受到计算复杂性的影响，导致假阴性和假阳性率很高，从而限制了其有效性。为了应对这些挑战，我们提出了一种创新模型，该模型利用了卷积神经网络和视觉转换器的优势。受视频中对象检测的启发，我们将每个 3D CT 图像视为视频，将各个切片视为帧，将肺结节视为对象，从而实现时间序列应用。我们工作的主要目标是克服模型训练期间的硬件限制，允许高效处理 2D 数据，同时利用切片间信息基于 3D 图像上下文进行准确识别。我们通过对公开的 Lung Nodule Analysis 2016 数据集应用 10 倍交叉验证技术来验证所提出的网络。我们提出的架构在参数很少的情况下实现了 97.84 的平均灵敏度标准和 96.0 的竞争性能指标 CPM。

Learning Concept-Based Visual Causal Transition and Symbolic Reasoning for Visual Planning
Authors Yilue Qian, Peiyu Yu, Ying Nian Wu, Wei Wang, Lifeng Fan
视觉规划以搜索初始视觉状态和最终视觉目标状态之间的视觉因果转换的形式模拟人类如何做出决策以实现期望的目标。它在以自我为中心的视觉中变得越来越重要，具有指导智能体在复杂环境中执行日常任务的优势。在本文中，我们提出了一个可解释和可概括的视觉规划框架，其中包括：i 一个新颖的基于替换的概念学习器 SCL，它将视觉输入抽象为解开的概念表示；ii 符号抽象和推理，通过自学符号执行任务规划；iii 一个视觉因果转换模型 ViCT，将视觉因果转换为语义相似的现实世界动作。给定初始状态，我们使用由学习的表示和因果转换推动的符号推理方法执行目标条件视觉规划，以达到目标状态。为了验证所提出模型的有效性，我们收集了基于 AI2 THOR 的大规模视觉规划数据集，称为 CCTP。在这个具有挑战性的数据集上进行的大量实验证明了我们的方法在视觉任务规划方面的卓越性能。

Enhanced Human-Robot Collaboration using Constrained Probabilistic Human-Motion Prediction
Authors Aadi Kothari, Tony Tohme, Xiaotong Zhang, Kamal Youcef Toumi
人体运动预测是高效、安全的人机协作的重要步骤。当前的方法要么纯粹依赖于以某种形式的基于神经网络的架构来表示人体关节，要么使用离线回归模型来拟合超参数，以期捕获包含人体运动的模型。虽然这些方法提供了良好的初步结果，但它们错过了利用经过充分研究的人体运动学模型以及身体和场景约束，这些约束可以帮助提高这些预测框架的功效，同时也明确避免不可信的人体关节配置。我们提出了一种新颖的人体运动预测框架，该框架将人体关节约束和场景约束纳入高斯过程回归 GPR 模型中，以预测设定时间范围内的人体运动。该公式与在线上下文感知约束模型相结合，以利用任务相关的运动。它在人类手臂运动学模型上进行了测试，并在带有 UR5 机器人手臂的人类机器人协作设置上实施，以展示我们方法的实时能力。还对 HA4M 和 ANDY 等数据集进行了模拟。

On the Performance of Multimodal Language Models
Authors Utsav Garg, Erhan Bas
指令调整的大型语言模型法学硕士已经在各种下游任务中展示了有前途的零样本泛化能力。最近的研究通过模型移植集成独立预训练的视觉编码器，为法学硕士引入了多模式功能。这些多模态变体经过指令调整，类似于法学硕士，为多模态任务提供有效的零样本泛化。本研究对不同的多模态指令调整方法进行了比较分析，并评估了它们在一系列任务中的性能，包括复杂推理、对话、图像字幕、多项选择题 MCQ 和二元分类。通过严格的基准测试和消融实验，我们揭示了将多模式功能纳入法学硕士时指导架构选择的关键见解。然而，当前的方法存在局限性，它们不能充分满足对多样化多模式指令数据集的需求，而这对于增强任务泛化至关重要。此外，他们在生成回复时忽略了与真实性和事实性相关的问题。

Attributing Learned Concepts in Neural Networks to Training Data
Authors Nicholas Konz, Charles Godfrey, Madelyn Shapiro, Jonathan Tu, Henry Kvinge, Davis Brown
到目前为止，有大量证据表明深度学习模型学习某些人类可解释的特征作为其数据内部表示的一部分。由于正确或错误的概念对于值得信赖的机器学习系统至关重要，因此很自然地会问模型原始训练集中的哪些输入对于学习给定层的概念最重要。为了回答这个问题，我们将数据归因方法与探索模型学到的概念的方法结合起来。在一系列网络层上训练两个概念数据集的网络和探针集合，我们使用最近开发的 TRAK 方法进行大规模数据归因。我们发现了一些收敛的证据，其中删除概念的 10,000 个顶级归因图像并重新训练模型不会改变概念在网络中的位置，也不会改变概念的探测稀疏性。

Blind CT Image Quality Assessment Using DDPM-derived Content and Transformer-based Evaluator
Authors Yongyi Shi, Wenjun Xia, Ge Wang, Xuanqin Mou
降低每次视图的辐射剂量和利用每次扫描的稀疏视图是两种常见的 CT 扫描模式，尽管这通常会导致以噪声和条纹伪影为特征的图像失真。盲图像质量评估 BIQA 致力于评估与放射科医生感知一致的感知质量，这在推进低剂量 CT 重建技术方面发挥着重要作用。一个有趣的方向涉及开发模仿人类视觉系统 HVS 操作特征的 BIQA 方法。内部生成机制IGM理论揭示了HVS主动演绎主要内容以增强理解力。在本研究中，我们引入了一种创新的 BIQA 指标，可以模拟 IGM 的主动推理过程。最初，构建一个主动推理模块（作为去噪扩散概率模型 DDPM 实现）来预测主要内容。然后，通过评估失真图像与其主要内容之间的相互关系来导出相异图。随后，将失真图像和相异图组合成多通道图像，将其输入到基于变换器的图像质量评估器中。值得注意的是，通过专门使用这种基于变压器的质量评估器，我们在 MICCAI 2023 低剂量计算机断层扫描感知图像质量评估大赛中获得了第二名。

Creating an Atlas of Normal Tissue for Pruning WSI Patching Through Anomaly Detection
Authors Peyman Nejat, Areej Alsaafin, Ghazal Alabtah, Nneka Comfere, Aaron Mangold, Dennis Murphree, Patricija Zot, Saba Yasir, Joaquin J. Garcia, H.R. Tizhoosh
修补十亿像素的整个幻灯片图像 WSI 是计算病理学中的一项重要任务。已经提出了一些方法来选择补丁的子集作为下游任务的 WSI 表示。虽然大多数计算病理学任务旨在对每个 WSI 中病理病变的存在进行分类或检测，但组织样本中正常组织学的混杂作用和冗余性质在 WSI 表示中通常被忽视。在本文中，我们仅使用从正常组织活检获得的 WSI 样本提出并验证了正常组织图谱的概念。此类图谱可用于消除组织样本的正常碎片，从而增加斑块集合的代表性。我们通过使用 107 个正常皮肤 WSI 建立正常图集来测试我们提出的方法，并演示如何改进已建立的索引和像 Yottixel 这样的搜索引擎。我们使用了 553 个皮肤鳞状细胞癌 cSCC 的 WSI 来展示其优势。我们还验证了我们的方法应用于 451 个乳房 WSI 的外部数据集。在利用所提出的正常图集后，选定的 WSI 补丁数量减少了 30 到 50 个，同时在两个数据集的验证中保持相同的索引和搜索性能。

Batch-less stochastic gradient descent for compressive learning of deep regularization for image denoising
Authors Hui Shi IMB , Yann Traonmilin IMB , J F Aujol IMB
我们借助从干净信号或图像数据库中获取的先验信息来考虑去噪问题。如果有适合数据性质的正则化器，则使用变分方法去噪会非常有效。由于最大后验贝叶斯框架，这种正则化器可以系统地与数据的分布联系起来。

REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction
Authors Zeyi Liu, Arpit Bahety, Shuran Song
自动检测和分析失败执行的能力对于可解释且强大的机器人系统至关重要。最近，大型语言模型法学硕士在文本输入方面表现出了强大的推理能力。为了利用 LLM 的力量来解释机器人故障，我们引入了 REFLECT，这是一个框架，可以根据多感官观察生成的机器人过去经验的分层摘要来查询 LLM 的故障推理。失败解释可以进一步指导基于语言的规划器纠正失败并完成任务。为了系统地评估该框架，我们创建了包含各种任务和故障场景的 RoboFail 数据集。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

这篇关于【AI视野·今日CV 计算机视觉论文速览第262期】Fri, 6 Oct 2023的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！