7 Papers Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化

本文主要是介绍7 Papers Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

22042fce9eb3b2f819e7005d4e250128.png

来源:机器之心
本文约3700字,建议阅读5分钟本周重要论文包括:CVPR 2022各种获奖论文。

目录

  1. Learning to Solve Hard Minimal Problems

  2. Dual-Shutter Optical Vibration Sensing

  3. EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

  4. Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

  5. Self-supervised Transparent Liquid Segmentation for Robotic Pouring

  6. Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization

  7. Evolution through Large Models

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Learning to Solve Hard Minimal Problems

  • 作者:Petr Hruby等

  • 论文链接:https://arxiv.org/abs/2112.03424

摘要:该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。

研究者设计了一种学习策略,用于选择初始问题 - 解决方案对以用数值方法继续解决原问题。该研究通过创建一个 RANSAC 求解器来演示所提方法,该求解器通过使用每个视图中的 4 个点进行最小松弛化来计算 3 个校准相机的相对位姿。平均而言,该方法可以在 70 μs、内解决一个原始问题。此外,该研究还针对校准相机的相对位姿这一问题进行了基准测试和研究。

8c24c0015a0957fc40e8a185524e0786.png

内部 RANSAC 循环为数据样本 p 找到最佳解决方案。

0380191b131b60e3d39ca713bfab57c8.png

 (a) 映射到问题空间 P 的问题解决流形 M;(b) 数值 HC 方法。

6e139a95e566bc14b097bb4e267b7b18.jpeg

分类器评估。

推荐:CVPR 2022 最佳论文。

论文 2:Dual-Shutter Optical Vibration Sensing

  • 作者:Mark Sheinin 等

  • 论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

摘要:视觉振动测量是一种非常有用的工具,可用于远程捕捉音频、材料物理属性、人体心率等。虽然视觉上可观察的振动可以通过高速相机直接捕捉,通过将激光束照射振动表面所产生的散斑图案的位移成像,可以从光学上放大微小且不易察觉的物体振动。

在本文中,研究者提出了一种在高速(高达 63 kHz)下同时检测多个场景源振动的新方法,该方法使用额定工作频率仅为 130Hz 的传感器。他们的方法使用两个分别配备滚动和全局快门传感器的相机来同时捕捉场景,其中滚动快门相机捕捉到对高速物体振动进行编码的失真散斑图像,全局快门相机捕捉散斑图案的未失真参考图像,从而有助于对源振动进行解码。最后,研究者通过捕捉音频源(如扬声器、人声和乐器)引起的振动并分析音叉的振动模式,展示了他们的方法。

867b9d394fc6d69e8d3f95a33c8b40f2.png

研究者用一种新颖的方法「看到」(seeing)声音。

344901e6fbed10c2ccd2156a33510fd3.png

 (a) 成像散焦散斑;(b) 双快门成像系统示意图。

eb3e336b7bed0fb0f9fcb03909f3736c.png

双快门相机定时。

推荐:CVPR 2022 最佳论文提名。

论文 3:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

  • 作者:Hansheng Chen 等

  • 论文链接:

  • https://arxiv.org/pdf/2203.13254.pdf

摘要:利用透视点(PnP)基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下,近期的研究建议将 PnP 解释为一个可微分层,如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而,从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛,因为确定性的姿态本质上是不可微的。

这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层 ——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上输出姿态的分布,实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量,通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法,类似于注意力机制。EPro-PnP 的性能明显优于其他基准,缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。

922b60fbbfc254e5c98e97739846ca52.png

EPro-PnP 方法概览。

ed5214d235bb871bac1a7a15ad175c30.png

学习离散分类器 vs 学习连续姿态分布。

9b0994288bb5fbb7430da7b7691437dc.png

算法 1:基于 AMIS 的蒙特卡洛姿态损失。

推荐:CVPR 2022 最佳学生论文。

论文 4:Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

  • 作者:Dor Verbin 等

  • 论文链接:

  • https://arxiv.org/pdf/2112.03907.pdf

摘要:神经辐射场是一种流行的视图合成技术,它将场景表示为连续的体积函数,由多层感知器参数化,多层感知器提供每个位置的体积密度和与视图相关的散发辐射。虽然基于 NeRF 的方法擅长表征平滑变化的外观几何结构,但它们通常无法准确捕捉和再现光泽表面的外观。

该研究提出了 Ref-NeRF 来解决这个问题,它将 NeRF 与视图相关的散发辐射的参数化替换为反射辐射的表征,并使用空间变化的场景属性的集合来构造该函数。该研究表明,使用法向量上的正则化器,新模型显著提高了镜面反射的真实性和准确性。此外,该研究还表明该模型对散发辐射的内部表征是可解释的,这对于场景编辑非常有用。

514706ccc0bbe32c1d58d98b0850b169.png

与以往表现最好的神经视图合成模型 mip-NeRF 相比,Ref-NeRF 显著提升了法向量(最上行)和视觉真实性(余下行)。

2b75abf50ee2d53237f1cd77e7409a47.png

mip-NeRF(上)和 Ref-NeRF(下)的架构图比较。

feb0921a8c8e608d6b920c6f3341f13f.jpeg

Ref-NeRF 渲染出准确的光鲜表面,覆盖精细几何细节。

推荐:CVPR 2022 最佳学生论文提名。

论文 5:Self-supervised Transparent Liquid Segmentation for Robotic Pouring

  • 作者:Gautham Narasimhan 等

  • 论文链接:

    https://arxiv.org/pdf/2203.01538.pdf

摘要:近期,在 CMU 和圣母大学的一篇论文中,研究者提出了一种在透明容器中感知透明液体(水)的方法。与以往方法相比,本研究提出的方法减轻了对操作域的限制。具体地,他们在单个图像上进行操作,不需要液体运动或多帧,也不需要在训练期间进行手动注释或加热液体。研究者使用一个生成模型来学习将有色液体的图像转换为透明液体的合成图像,这种做法可以用来训练透明的液体细分模型。

论文一作 Gautham Narasimhan 现为 CMU 机器人研究所的助理研究员,2020 年在 CMU 拿到了硕士学位。目前,他致力于研究用于机器人倒水任务的强化学习模型。该研究由 LG Electronics 和美国国家科学基金会提供资助,并于 5 月份发表在 IEEE 国际机器人和自动化会议上。该论文已被机器人领域国际顶会 ICRA 2022 接收。

15aa06d443475384e5f52e3418783252.png

有色液体图像转换成透明液体图像的详细流程图。

4d3cf794ac84ae072a48de58c16e3ea9.png

透明液体细分流程图。

推荐:将有色液体图像转换成透明液体,CMU 教机器人准确掌控向杯中倒多少水。

论文 6:Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization

  • 作者:Ruipeng Jia 等

  • 论文链接:

    https://aclanthology.org/2022.acl-long.42.pdf

摘要:抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言,目前很难得到大规模的标注数据。中国科学院信息工程研究所和微软亚洲研究院联合提出一种是基于 Zero-Shot 的多语言抽取式文本摘要模型。具体方法是使用在英文上预训练好的抽取式文本摘要模型来在其他低资源语言上直接进行摘要抽取;并针对多语言 Zero-Shot 中的单语言标签偏差问题,提出了多语言标签标注算法和神经标签搜索模型。

实验结果表明,模型 NLSSum 在多语言摘要数据集 MLSUM 的所有语言上大幅度超越 Baseline 模型的分数。其中在俄语(Ru)数据集上,零样本模型性能已经接近使用全量监督数据得到的模型。该研究发表在了 ACL 2022 会议主会长文上。

63a87fecc8571e20da640c1bfa0c2325.png

多语言 Zero-Shot 中的单语言标签偏差问题。

758ff5bac59ba458010065e1b8009711.png

多语言标签。

302a1d0998172fec0e5082f81adb5f8a.png

多语言神经标签搜索摘要模型。

推荐:基于神经标签搜索,中科院 & 微软亚研零样本多语言抽取式摘要入选 ACL 2022。

论文 7:Evolution through Large Models

  • 作者:Joel Lehman 等

  • 论文链接:https://arxiv.org/abs/2206.08896

摘要:很难想象,让大型语言模型辅助一下智能体机器人,它就自己成精了...... 深度学习和进化计算两种方法都适用于计算,都可以产生有用的发现和有意义的进展。不过,二者之间到底是相互竞争的模式,还是互补的模式?最近一篇论文中,来自 OpenAI 的研究者探讨了第二种情况,即互补模式的可能性。他们研究了大语言模型 (LLM; [1,2]) 在基因编程 (GP; [3,4]) 和开放性 [5-7] 上的潜在意义,发现了二者间的协同作用。

bf4c90ff18ee659a67c2862d4b0b29bd.png

该研究选择使用 MAP-Elite 算法进行实验。

284b531b20ddf5be6ce51e8f989b456f.png

来自 OpenAI API 的模型优于论文中的 diff 模型。

e21f55133a50ef2a11e93361d50c4188.png

一个单独的 Sodaracer 由一个大小可变的点质量(point mass)集合 (每个点质量都由其初始的 2D 位置描述) 和将质量连接在一起的振荡弹簧组成。

推荐:大型语言模型教会智能体进化,OpenAI 这项研究揭示了二者的互补关系。

ArXiv Weekly Radiostation

在ArXiv Weekly Radiostation中,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,详情如下:

本周 10 篇 NLP 精选论文是:

1. CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking.  (from Philip S. Yu)

2. DP-Parse: Finding Word Boundaries from Raw Speech with an Instance Lexicon.  (from Abdelrahman Mohamed, Emmanuel Dupoux)

3. GODEL: Large-Scale Pre-Training for Goal-Directed Dialog.  (from Jianfeng Gao)

4. GEMv2: Multilingual NLG Benchmarking in a Single Line of Code.  (from Dragomir Radev)

5. Offline RL for Natural Language Generation with Implicit Language Q Learning.  (from Sergey Levine)

6. BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic Parsing.  (from Jason Eisner)

7. The Problem of Semantic Shift in Longitudinal Monitoring of Social Media: A Case Study on Mental Health During the COVID-19 Pandemic.  (from Mark Dredze)

8. Theory-Grounded Measurement of U.S. Social Stereotypes in English Language Models.  (from Hal Daumé III)

9. Questions Are All You Need to Train a Dense Passage Retriever.  (from Joelle Pineau)

10. Hierarchical Context Tagging for Utterance Rewriting.  (from Daniel Gildea)

本周 10 篇 CV 精选论文是:

1. MaskViT: Masked Visual Pre-Training for Video Prediction.  (from Li Fei-Fei)

2. CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation.  (from Alan Yuille, Liang-Chieh Chen)

3. PromptPose: Language Prompt Helps Animal Pose Estimation.  (from Dacheng Tao)

4. Rectify ViT Shortcut Learning by Visual Saliency.  (from Dinggang Shen)

5. Design of Supervision-Scalable Learning Systems: Methodology and Performance Benchmarking.  (from C.-C. Jay Kuo)

6. Parallel Pre-trained Transformers (PPT) for Synthetic Data-based Instance Segmentation.  (from Ming Li, Jie Wu)

7. Improving Generalization of Metric Learning via Listwise Self-distillation.  (from Zheng Wang)

8. SATBench: Benchmarking the speed-accuracy tradeoff in object recognition by humans and dynamic neural networks.  (from Denis G. Pelli)

9. The ArtBench Dataset: Benchmarking Generative Models with Artworks.  (from Kurt Keutzer)

10. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation.  (from Vijay Vasudevan, Yonghui Wu)

本周 10 篇 ML 精选论文是:

1. AutoML Two-Sample Test.  (from Bernhard Schölkopf)

2. Variational Causal Dynamics: Discovering Modular World Models from Interventions.  (from Bernhard Schölkopf)

3. The Role of Depth, Width, and Activation Complexity in the Number of Linear Regions of Neural Networks.  (from Michael Unser)

4. Channel-wise Mixed-precision Assignment for DNN Inference on Constrained Edge Nodes.  (from Luca Benini)

5. LED: Latent Variable-based Estimation of Density.  (from Michael J. Black)

6. $\texttt{FedBC}$: Calibrating Global and Local Models via Federated Learning Beyond Consensus.  (from Dinesh Manocha)

7. How robust are pre-trained models to distribution shift?.  (from Philip H.S. Torr)

8. FINGER: Fast Inference for Graph-based Approximate Nearest Neighbor Search.  (from Inderjit S. Dhillon)

9. Optimally Weighted Ensembles of Regression Models: Exact Weight Optimization and Applications.  (from Thomas Bäck)

10. Fighting Fire with Fire: Avoiding DNN Shortcuts through Priming.  (from Yang Gao)

编辑:王菁

校对:龚力

这篇关于7 Papers Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/291991

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学