CV每日论文--2024.6.20

2024-06-21 22:28
文章标签 cv 2024.6 20 论文 每日

本文主要是介绍CV每日论文--2024.6.20,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

中文标题:任意深度:通过透视蒸馏和未标记数据增强增强 360 单目深度估计

简介:该方法提出一种新的深度估计框架来增强360度图像的单眼深度估计。它利用现有的透视深度估计模型作为教师模型,通过六面立方体投影技术生成伪标签,实现对360度图像深度的高效标注。该方法包括两个主要阶段:无效区域的离线掩码生成和在线半监督联合训练。该方法在基准数据集上显示出显著的深度估计精度提升,特别是在零样本场景中。该训练流程可以增强任何360度单眼深度估计器,展示了跨不同摄像机投影和数据类型的有效知识转移。更多细节和结果可参考项目页面:https://albert100121.github.io/Depth-Anywhere/

2、LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging

中文标题:LayerMerge:通过层修剪和合并进行神经网络深度压缩

简介:最近的研究表明,在保持网络性能的同时减少卷积神经网络的层数可以提高效率。现有的深度压缩方法通过去除冗余的非线性激活函数和将连续的卷积层合并为单个层来实现。然而,这些方法存在一个关键缺点:合并层的核大小变大,严重削弱了减少网络深度所获得的延迟降低效果。我们提出了一种新的深度压缩方法——LayerMerge,通过联合修剪卷积层和激活函数来解决这个问题。为此,我们提出了一种新的代理优化问题,并通过动态规划高效地解决了这个问题。我们的实验结果表明,我们的方法在各种网络架构上(包括图像分类和生成任务)始终优于现有的深度压缩和层修剪方法。我们已在 https://github.com/snu-mllab/LayerMerge 上发布了LayerMerge的官方PyTorch实现代码。

3、Neural Approximate Mirror Maps for Constrained Diffusion Models

中文标题:约束扩散模型的神经近似镜像图

简介:扩散模型在创建具有令人信服的视觉效果的图像方面表现出色,但往往难以满足训练数据中固有的微妙约束。这些约束可能是基于物理(例如满足PDE)、几何(例如尊重对称性)或语义(例如包含特定数量的对象)的。当训练数据满足某个约束时,强制在扩散模型上执行这些约束不仅可以提高其分布匹配精度,还可以使其更可靠地生成有效的合成数据和解决受约束的逆问题。然而,现有的受约束扩散模型方法在不同类型的约束下缺乏灵活性。最近的研究提出了一种学习镜像扩散模型(MDMs)的方法,在无约束空间中使用反向镜像映射来强制执行约束,但是对于复杂约束来说,分析镜像映射是具有挑战性的。为此,我们提出了神经近似镜像映射(NAMMs)用于处理一般约束。我们的方法仅需要使用可微分的距离函数来定义约束集合。我们通过学习一个近似的镜像映射将数据推入无约束空间,并相应地学习一个近似的反向映射将数据映射回约束集。然后,我们可以在学习到的镜像空间中训练生成模型(例如MDM),并通过反向映射将生成的样本恢复到约束集中。我们验证了我们的方法在各种约束条件下的有效性,结果表明,与无约束扩散模型相比,基于NAMM的MDM显著提高了约束的满足度。我们还演示了如何在学习的镜像空间中轻松应用现有的基于扩散的逆问题求解器来解决受约束的逆问题。

这篇关于CV每日论文--2024.6.20的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1082503

相关文章

2024.6.24 IDEA中文乱码问题(服务器 控制台 TOMcat)实测已解决

1.问题产生原因: 1.文件编码不一致:如果文件的编码方式与IDEA设置的编码方式不一致,就会产生乱码。确保文件和IDEA使用相同的编码,通常是UTF-8。2.IDEA设置问题:检查IDEA的全局编码设置和项目编码设置是否正确。3.终端或控制台编码问题:如果你在终端或控制台看到乱码,可能是终端的编码设置问题。确保终端使用的是支持你的文件的编码方式。 2.解决方案: 1.File -> S

20.Spring5注解介绍

1.配置组件 Configure Components 注解名称说明@Configuration把一个类作为一个loC容 器 ,它的某个方法头上如果注册7@Bean , 就会作为这个Spring容器中的Bean@ComponentScan在配置类上添加@ComponentScan注解。该注解默认会扫描该类所在的包下所有的配置类,相当于之前的 <context:component-scan>@Sc

PAT-1039 到底买不买(20)(字符串的使用)

题目描述 小红想买些珠子做一串自己喜欢的珠串。卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖。于是小红要你帮忙判断一下,某串珠子里是否包含了全部自己想要的珠子?如果是,那么告诉她有多少多余的珠子;如果不是,那么告诉她缺了多少珠子。为方便起见,我们用[0-9]、[a-z]、[A-Z]范围内的字符来表示颜色。例如,YrR8RrY是小红想做的珠串;那么ppRYYGrrYBR2258可以

每日一练:攻防世界:5-1 MulTzor

一、XorTool 基于 XOR(异或)运算实现。它可以帮助您快速地对文本、二进制文件进行加密解密操作。 认识XorTool工具: 让我们先去认识一下工具: xortool.py 是基于 python 的脚本,用于完成一些 xor 分析,包括: 猜想 key 的长度 猜想 key 的值 解密一些经过 xoe 加密的文件 也就是说当遇到不知道文件类型的文件,可以尝试去看看它是否被xo

HTML(20)——定位

定位 作用:灵活的改变盒子在网页中的位置 实现: 定位模式:position边偏移:设置盒子的位置 leftrighttopbottom 相对定位 position:relative 改变位置的参照物是自己原来的位置,并且不脱标占位,标签显示模式特点不变 绝对定位 position:absolute 使用场景:子级绝对定位,父级相对定位  脱标不占位参照物:先找最近的已经

C++20中的Feature Test Mocros

C++20定义了一组预处理器宏,用于测试各种语言和库的feature。       Feature Test Mocros(特性测试宏)是C++20中引入的一种强大机制,用于应对兼容性问题。Feature Test Mocros作为预处理器指令(preprocessor directives)出现,它使你能够在编译过程中仔细检查特定语言或库功能(particular language

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学