CVPR 2020: 移动端机器学习的研究实现

2024-06-21 08:48

本文主要是介绍CVPR 2020: 移动端机器学习的研究实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Derrick Mwiti

编译:ronghuaiyang

导读

边缘设备上的机器学习是未来的一大方向。

在最近结束的2020年CVPR会议上,有很多优秀的计算机视觉研究。在本文中,我们将重点关注与移动或与边缘计算相关的任务和内容。虽然并非所有这些论文都直接接触到移动相关的应用,但它们对移动端机器学习的影响是巨大的。它们推动了通常在移动设备和边缘设备上执行的ML任务,因此它们的进步对推动行业向前发展至关重要。

智能手机摄影的感知质量评估

本文作者对智能手机摄影的感知质量评估进行了深入的研究。他们还引入了智能手机摄影属性和质量(SPAQ)数据库。该数据库包含66部智能手机拍摄的11,125张照片。每个图像都有丰富的标注信息。

论文地址:http://openaccess.thecvf.com/content_CVPR_2020/html/Fang_Perceptual_Quality_Assessment_of_Smartphone_Photography_CVPR_2020_paper.html

作者还收集了人们对每张图片的看法。收集的一些信息包括图像质量、图像属性、图像属性和场景类别标签。为了进行更深入的分析,他们还记录了每张图像的可交换图像文件格式(EXIF)。然后,他们使用数据库训练由基线和多任务深度神经网络构建的盲图像质量评估(BIQA)模型。得到的结果让我们了解到:

  • 如何用EXIF数据,图像属性,和高级语义与图像质量交互

  • 如何设计下一代BIQA模型

  • 更好的计算摄影系统可以如何优化移动设备

BIQA模型和数据库可以在这里找到

这是一个图像质量评估 — IQA — 相机畸变数据集的比较。

分类级的多关节物体姿态估计

本文研究了单深度图像中分类级的多关节物体的姿态估计问题。他们提出了一种分类级的方法,其中包括在训练中未见过的物体实例。他们为给定类别中的不同关节对象引入了一种规范表示 —— 支持关节的标准化坐标空间层次结构(ANCSH)。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Li_Category-Level_Articulated_Object_Pose_Estimation_CVPR_2020_paper.html

该表示构造了规范的物体空间和一组规范的部件空间,以实现类内泛化。进一步,作者开发了一个基于PointNet++的深度网络:

该网络从单深度点云预测ANCSH。通过使用规范化的关节,作者实现了:

  • 使用关节诱导的运动学约束改进部分姿态和尺度估计的性能

  • 摄像机空间联合参数估计精度高

下图是联合参数估计的对比。

KFNet:使用卡尔曼滤波学习瞬时摄像机重新定位

与单镜头重定位通过聚焦静止图像来估计姿态不同,瞬时相机重定位根据序列中每一帧视频来估计姿态。本文旨在提高时域再定位方法的姿态估计能力。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Zhou_KFNet_Learning_Temporal_Camera_Relocalization_Using_Kalman_Filtering_CVPR_2020_paper.html

他们通过使用一个网络架构来实现这一点,该架构包含了用于在线相机重新定位的Kalman filtering (KFNet)。网络的设计和损失是基于贝叶斯学习背景下的卡尔曼滤波。

代码:https://github.com/zlthinker/KFNet

KFNet弥补了瞬时性和一次性定位方法之间的性能差距。作者还提出了一个统计评估工具,使KFNet能够在线自我检查潜在的异常值预测。

下面是不同重定位方法的中值平移和旋转误差的可视化结果。

这是一次one-shot和瞬时的准确度的比较。

EventCap:使用事件摄像机单目3D捕捉高速人体运动

本文提出了一种利用单镜头进行人体运动高速三维捕捉的方法EventCap。利用基于模型的优化和基于cnn的人体姿态估计捕获高频运动细节。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Xu_EventCap_Monocular_3D_Capture_of_High-Speed_Human_Motions_Using_an_CVPR_2020_paper.html

作者能够捕捉毫秒分辨率的快速运动,与使用高帧率视频相比,具有更高的数据效率。

在联合优化框架中,利用事件流和来自事件摄像机的低帧率强度图像流,设计了一种运动捕捉算法。这在以下阶段发生:

  • 在二维空间异步跟踪事件,重建相邻亮度图像帧之间的连续时空事件轨迹。

  • 估计人体的3D运动使用基于批处理的优化算法。

  • 根据从异步事件流接收到的边界信息精炼捕获的高速运动。

通过利用跟踪的事件轨迹和基于cnn的二维和三维姿态估计强度图像来解决漂移问题。

作者还提出了一个基于事件相机的快速人体动作捕捉评价数据集。

本文将几种方法在跟踪精度和数据吞吐量方面与本文提出的方法进行比较。

RetinaFace: Single-Shot多层次人脸定位

提出了一种single-shot、多层次的人脸定位方法。他们还对WIDER FACE dataset手工标注了五个人脸landmarks,对WIDER FACE,AFLW,FDDB等数据集采用半自动pipeline为人脸图像生成三维顶点。

将人脸 bounding box预测、二维人脸landmark定位和三维顶点回归相结合,实现了图像平面上的点回归。他们还提出了一种学习策略来训练一种统一的、多层次的人脸定位方法,该方法可以同时预测人脸 bounding box、五个2D人脸landmark和1K个3D顶点。

FReeNet: 多重身份人脸重现

本文提出了一个基于多重身份的人脸重构框架 —— FReeNet。它可以通过共享的模型将来源的脸部表情转移到另一张脸部。框架由两部分组成:

  • 统一Landmark转换器(ULC),采用编码器 — 解码器的架构,在一个潜在的landmark空间转换表情。这减少了源图像和目标图像之间的面部轮廓的差距。

  • 几何感知发生器(GAG)使用转换的landmark重新制定照片真实的形象,给定目标人脸作为参考。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Zhang_FReeNet_Multi-Identity_Face_Reenactment_CVPR_2020_paper.html

作者还提出了一个新的triplet感知损失,使GAG模块同时学习外观和几何信息。这丰富了重现图像的面部细节。这种损失是由triplet损失和感知损失相结合而形成的。

人脸重现面临两个主要挑战:首先,通过统一的网络实现多身份面部表情的转换,其次,在保持姿势、色调和光照的同时,再现逼真的、身份一致的目标人脸。

源人脸和目标人脸之间的轮廓差距也构成了严重的挑战。为了解决这些难题,作者使用了一个landmark探测器来将人脸编码到潜在的landmark空间中。

利用landmark转换模块将源图像转换为潜在landmark空间中的目标人物。几何感知生成器从转换后的landmark空间中提取几何信息,从转换后的landmark空间中提取外观信息。并从参考人物中提取外观信息,重现目标人脸。

通过本文方法得到的一些结果如下:

最后的想法

如果这些论文引起了你的兴趣,那你就走运了!如果你想进一步了解的话,还有很多其他的资源:https://openaccess.thecvf.com/CVPR2020

—END—

英文原文:https://heartbeat.fritz.ai/cvpr-2020-research-with-mobile-ml-implications-fb63a1d06b25

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于CVPR 2020: 移动端机器学习的研究实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080754

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

51单片机学习记录———定时器

文章目录 前言一、定时器介绍二、STC89C52定时器资源三、定时器框图四、定时器模式五、定时器相关寄存器六、定时器练习 前言 一个学习嵌入式的小白~ 有问题评论区或私信指出~ 提示:以下是本篇文章正文内容,下面案例可供参考 一、定时器介绍 定时器介绍:51单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成。 定时器作用: 1.用于计数系统,可

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

[word] word设置上标快捷键 #学习方法#其他#媒体

word设置上标快捷键 办公中,少不了使用word,这个是大家必备的软件,今天给大家分享word设置上标快捷键,希望在办公中能帮到您! 1、添加上标 在录入一些公式,或者是化学产品时,需要添加上标内容,按下快捷键Ctrl+shift++就能将需要的内容设置为上标符号。 word设置上标快捷键的方法就是以上内容了,需要的小伙伴都可以试一试呢!

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

通过SSH隧道实现通过远程服务器上外网

搭建隧道 autossh -M 0 -f -D 1080 -C -N user1@remotehost##验证隧道是否生效,查看1080端口是否启动netstat -tuln | grep 1080## 测试ssh 隧道是否生效curl -x socks5h://127.0.0.1:1080 -I http://www.github.com 将autossh 设置为服务,隧道开机启动

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为