推荐几篇新出的 CVPR 2021开源论文,含图像分割、域适应、图像检索、视线估计等

本文主要是介绍推荐几篇新出的 CVPR 2021开源论文,含图像分割、域适应、图像检索、视线估计等,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

CVPR 2021 论文:

https://github.com/52CV/CVPR-2021-Papers

本文分享几篇近期值得关注的 CVPR 2021 的开源论文,包括图像到图像翻译、全景分割、语义分割、域适应、图像检索、无监督学习,以及一篇关于首次对从人们相互注视的图像/视频中学习弱监督的三维视线范式(LAEO)的研究。

相信其中有些工作肯定会让你大开眼界。

 

      01      

High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network

 

来自香港理工大学&阿里达摩院

 

作者称是首个在 4K 分辨率图像上实时实现逼真 I2IT(图像到图像翻译) 的工作。其次,在轻量级和快速的推理模型,仍然在转换能力和逼真度方面在逼真的I2IT应用上实现了可比或优越的性能。定性和定量的结果都表明,所提出的方法与先进的方法相比表现良好。

 

  • 论文链接:https://arxiv.org/abs/2105.09188

  • 项目链接:https://github.com/csjliang/LPTN

 

图片

 

标签:图像到图像翻译

 

      02      

PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency

 

来自香港理工大学&阿里达摩院

 

与一般的人像照片修饰任务不同,portrait photo retouching(PPR)的目的是提高一组外观扁平的人像照片的视觉质量,有其特殊的实际要求,如 human-region priority(HRP)和 group-level consistency(GLC)。HRP 要求对更多关注 human regions(人体区域),GLC 则要求将一组人像照片修饰成一致的色调。而在现有的一般照片修饰数据集上训练的模型,很难满足 PPR 的这些要求。

 

为了促进这一高频任务的研究,作者在本次工作中构建了一个大规模的 PPR 数据集:PPR10K,并称这是首个此类相关的数据集。PPR10K 共包含 1,681 个组和 11,161 张高质量的原始人像照片。以及人类区域的高分辨率分割掩码。每张原始照片都由三位专家进行修饰,并对每组照片进行精心调整,使其色调一致。作者定义了一套评估 PPR性能的客观指标,并提出了学习具有良好 HRP 和 GLC 性能的 PPR 模型的策略。而 PPR10K 数据集为研究自动 PPR 方法提供了一个很好的基准,实验证明,所提出的学习策略能够有效地提高修饰性能。

 

  • 论文链接:https://arxiv.org/abs/2105.09180

  • 项目链接:https://github.com/csjliang/PPR10K

 

图片

 

标签:portrait photo retouching+数据集

 

      03      

Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly Supervised Semantic Segmentation

 

来自延世大学&成均馆大学

 

现有的使用图像级弱监督的弱监督语义分割(WSSS)研究的局限性有:sparse object coverage(稀疏的对象覆盖),不准确的对象边界,以及来自非目标对象的共同出现的像素。

 

本次工作所提出方案:提出 Explicit Pseudo-pixel Supervision(EPS),通过结合两个弱监督从像素级反馈中学习;图像级标签通过 localization map,以及来自现成的显著检测模型提供丰富边界的 saliency map 来提供目标身份。作者进而又设计一种联合训练策略,可以充分利用两种信息之间的互补关系。所提出方法可以获得准确的物体边界,并摒弃共同出现的像素,从而显著提高 pseudo-masks 的质量。

 

结论:实验结果表明,所提出方法通过解决 WSSS 的关键挑战而明显优于现有方法,并在 PASCAL VOC 2012 和MS COCO 2014 数据集上取得了新的 SOTA。

 

 

  • 论文链接:https://arxiv.org/abs/2105.08965

  • 项目链接:https://github.com/halbielee/EPS

 

图片

 

标签:语义分割

 

      04      

Exemplar-Based Open-Set Panoptic Segmentation Network

 

来自首尔大学&Adobe Research

 

该文先是定义开放集全景分割(OPS)任务,并通过深入分析其固有的挑战,利用合理的假设使其可行。通过重新组织 COCO 构建一个全新的 OPS 基准,并作为 Panoptic FPN 的变种展示其基线的性能。EOPSN 是基于典范理论的开放集全景分割框架,在检测和分割未知类别的例子方面被实验证明是有效的。

 

  • 论文链接:https://arxiv.org/abs/2105.08336

  • 项目链接:https://github.com/jd730/EOPSN

  • 主页地址:https://cv.snu.ac.kr/research/EOPSN/

 

图片

 

标签:全景分割+开放集

 

      05      

Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation

 

来自苏黎世联邦理工学院

 

提出一种在 UDA 背景下进行语义分割和单目深度估计的新方法。亮点如下:Cross-Task Relation Layer(CTRL),为域对齐学习一个联合特征空间;该联合空间编码特定任务的特征和跨任务的依赖关系,显示对UDA有用;semantic refinement head(SRH)有助于学习任务的关联性;深度离散技术有利于学习不同语义类别和深度级别之间的独特关系;iterative self-learning(ISL)方案通过利用目标域的高置信度预测,进一步提高模型的性能。

 

在三个具有挑战性的 UDA 基准上,所提出的方法始终大幅超越先前的工作。

 

  • 论文链接:https://arxiv.org/abs/2105.07830

  • 项目链接:https://github.com/susaha/ctrl-uda

 

图片

 

标签:域适应

 

      06      

Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing

 

来自哈工大(深圳)&鹏城实验室&港中文&深圳市大数据研究院&电子科技大学&Koala Uran Tech

 

该文提出一个用于灵活的 targeted hashing attack(定向哈希攻击)的 prototype-supervised adversarial network(ProS-GAN),包括一个 PrototypeNet,一个生成器和一个判别器。实验证明,ProS-GAN 可以实现高效和卓越的攻击性能,比最先进的深度哈希的定向攻击方法具有更高的可迁移性。

 

  • 论文链接:https://arxiv.org/abs/2105.07553

  • 项目链接:https://github.com/xunguangwang/ProS-GAN

 

图片

 

标签:图像检索+对抗攻击

 

      07      

Weakly-Supervised Physically Unconstrained Gaze Estimation

 

来自英伟达&罗切斯特理工大学&Lunit Inc

 

本次工作所探讨的问题是从人类互动的视频中进行弱监督的视线估计,基本原理是利用人们在进行 "相互注视"(LAEO)活动时存在的与视线相关的强烈的几何约束这一发现。通过提出一种训练算法,以及为该任务特别设计的几个新的损失函数,可以从 LAEO 标签中获得可行的三维视线监督信息。在两个大规模的 CMU-Panoptic 和 AVA-LAEO 活动数据集的弱监督下,证明了半监督视线估计的准确性和对最先进物理无约束的自然 Gaze360 视线估计基准的跨域泛化的显著改善。

 

  • 论文链接:https://arxiv.org/abs/2105.09803

  • 项目链接:https://github.com/NVlabs/weakly-supervised-gaze

 

图片

 

标签:CVPR 2021 Oral+视线估计

 

      08      

SMURF: Self-Teaching Multi-Frame Unsupervised RAFT with Full-Image Warping

 

来自谷歌&Waymo

 

SMURF 是一种用于无监督学习光流的方法,在所有的基准上提高了 36% 到 40%(相比之前最好的方法UFlow),甚至超过了一些有监督的方法,如 PWC-Net 和 FlowNet2。该方法是将有监督光流的结构改进,即RAFT 模型,与无监督学习的新思路相结合,包括一个序列感知的自监督损失,一个处理帧外运动的技术,以及一个从多帧视频数据中有效学习的方法,同时仍然只需要两帧推理。

 

 

  • 论文链接:https://arxiv.org/abs/2105.07014

  • 项目链接:https://github.com/google-research/google-research/tree/master/smurf

 

图片

原文链接:https://zhuanlan.zhihu.com/p/374745929

这篇关于推荐几篇新出的 CVPR 2021开源论文,含图像分割、域适应、图像检索、视线估计等的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506804

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

防近视护眼台灯什么牌子好?五款防近视效果好的护眼台灯推荐

在家里,灯具是属于离不开的家具,每个大大小小的地方都需要的照亮,所以一盏好灯是必不可少的,每个发挥着作用。而护眼台灯就起了一个保护眼睛,预防近视的作用。可以保护我们在学习,阅读的时候提供一个合适的光线环境,保护我们的眼睛。防近视护眼台灯什么牌子好?那我们怎么选择一个优秀的护眼台灯也是很重要,才能起到最大的护眼效果。下面五款防近视效果好的护眼台灯推荐: 一:六个推荐防近视效果好的护眼台灯的

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP