CVPR 2015 Oral概览 - 第二天上午

2023-12-01 21:58

本文主要是介绍CVPR 2015 Oral概览 - 第二天上午,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第二天上午两大主题:富有新意活力的图像与语言部分,以及在传统中更上层楼的多视几何。

D2-AM-A. Image and Language
Show and Tell: A Neural Image Caption Generator
看图说话:神经网络图像标题生成器
(Google)
输入图片,输出一句描述性语言。
训练:最大化训练集中,标定的文本的似然函数。
vision CNN + language RNN(recursive)

在machine translation中,最近的潮流是:不在单独翻译单词、对齐单词,而是直接最大化P(Target|Source)
源语言用RNN进行encode,而后再用另一个RNN进行decode。
本文用图像的CNN来代替第一部分。

Deep Visual-Semantic Alignments for Generating Image Descriptions
用于生成图像描述的深度网络视觉语义对齐
(Li Fei-Fei)
输入图片,输出一句描述性语言。同时给出词组和图片区域的对应关系。
把训练集中标定的文本当做weak label,其中相邻的词组表示图片中的某一未知区域。
使用multimodal RNN,把图片作为输入,生成文本。



Long-Term Recurrent Convolutional Networks for Visual Recognition and Description
用于视觉识别和描述的长时RCNN
输入短视频,输出描述。三个特征:long term处理时序,recurrent处理文本,convolutional处理图像。
 
LSTM (long-short term memory):一种时间递归神经网络。

Image Specificity
图像明晰度
specific:图片的主题明确程度。如果不同人给一张图片写说明,结果关键词非常类似,则说明specificity高。
可以用在图像搜索中:
如果图像主题明确,则图像和搜索词的相似度很高,才能认为“命中”;如果图像主题模糊,则较低的相似度,也可以返回“命中”。
分类使用SVR。主要贡献是提出了这个问题。


Don't Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-Visual Tasks
别光听,还要想:利用视觉常识处理非视觉任务
利用视觉信息回答常识性问题。
一般的artificial agent系统搜索网络上的文本,来回答简单的常识性问题。
但有些问题网上没人讨论(可能太简单),有些难以用语句描述,需要多层次推理。

正确答案D包含了推理:熊很危险->人需要危险应该远离->躲起来可以远离。
这样的问题实际已经超出了recognition范畴。
训练集:Abstract Scene Dataset,人工生成的剪贴画场景,包含文本描述。
对于一个填空问题,首先“想象”还原其对应的场景,而后推断填空内容。

这篇实际不涉及CV算法,但利用了图像的思想。
代码和数据库公开。


Becoming the Expert - Interactive Multi-Class Machine Teaching
成为专家 - 交互多类计算机教学
非常有趣的场景:计算机教人 machine teaching。
人在学习一类目标时,应该先学习有代表性的样本,之后学习较模糊微妙的样本。
本文的系统能够自动根据学习者每一次的分类正误,顺序给出教学样本。

用graph based semi-supervised learning给学生这个分类器建模。
每次给出的教学样本,应该能最大降低未来的分类误差。

最后一行为本文方法。这样本也够糊弄的...

D2-AM-B. Multiple View Geometry

Reconstructing the World* in Six Days *(As Captured by the Yahoo 100 Million Image Dataset)
六天重建世界
SFM(structure-from-motion)问题。亿量级图像,生成多个城市的多视角结构。

黑点为重建的三维结构,红点为相机位置。
基本方法:找出有交叠的图像,这些交叠图像组成connected component;而后找出全部数据中的connected component。
由于数据量极大,需要用基于streaming的结构(序列化方法)找出connected component:即每张图片只载入一次,在一段时间之后即被丢弃。
用iconic image表示一个connected component。随着遍历整个数据库,更新这些iconic image。

【Joint Vanishing Point Extraction and Tracking】
联合灭点提取和跟踪
(Luc Van Gool, ETH)
VP检测:找出场景中的消失点。三种颜色的线段对应三个消失点。

本文创新:从视频多帧中联合提取VP,不知道相机运动。
球面上的面片是离散化的VP位置,红色的深浅表示VP处于此位置的可能性。
和球面相交的四个平面是由摄像机位置计算出来的interpretation planes(?)。

借鉴多目标跟踪中的flow networks方法:不同帧中可能匹配的对有边相连。
网络的分割结果决定,是否属于同一个物体。(完全没懂)


【Robust Camera Location Estimation by Convex Programming】
鲁棒的凸规划估计摄像机位置
从多张2D图片回复3D结构。本文方法对outlier鲁棒。
全是数学。

【Efficient Globally Optimal Consensus Maximisation With Tree Search】
利用树搜索进行高效的全局一致性搜索
求解maximum consensus问题。
传统方法:挑几个,试一试,不能达到最优。
全局方法:太慢。
本文提供一种高效的全局方法。使用A*搜索。

【R6P - Rolling Shutter Absolute Camera Pose】
卷帘快门估计照相机姿态
absolute pose:从多张照片恢复拍照时的相机姿态。
rolling shutter: 各个感光元件不同时曝光。当相机运动时,会造成图像变形。
大多数消费级照相机、手机都是用CMOS传感器,而CMOS传感器使用的就是rolling shutter。
使用这样的图像恢复照相机姿态时,会受到干扰。本文使用解决这类问题。

【Building Proteins in a Day: Efficient 3D Molecular Reconstruction】
一天重建蛋白质结构
从一系列高噪声、未对齐的2D投影(particle images),重建一个高解析度的3D结构。

使用统计优化方法。用约1小时生成粗糙模型,再利用一个importance sampling方法大大提高生成精密结构的速度。

这篇关于CVPR 2015 Oral概览 - 第二天上午的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/442840

相关文章

Java基础回顾系列-第二天-面向对象编程

面向对象编程 Java类核心开发结构面向对象封装继承多态 抽象类abstract接口interface抽象类与接口的区别深入分析类与对象内存分析 继承extends重写(Override)与重载(Overload)重写(Override)重载(Overload)重写与重载之间的区别总结 this关键字static关键字static变量static方法static代码块 代码块String类特

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

idea插件开发的第二天-写一个时间查看器

介绍 Demo说明 本文基于maven项目开发,idea版本为2022.3以上,jdk为1.8本文在Tools插件之上进行开发 Tools插件说明 Tools插件是一个Idea插件,此插件提供统一Spi规范,极大的降低了idea插件的开发难度,并提供开发者模块,可以极大的为开发者开发此插件提供便利Tools插件安装需要idea2022.3以上版本插件下载连接: https://downlo

【Rust光年纪】Rust 机器人学库全景:功能、安装与API概览

机器人学+Rust语言=无限可能:六款库带你开启创新之旅! 前言 随着机器人技术的快速发展,对于机器人学领域的高效、可靠的编程语言和库的需求也日益增加。本文将探讨一些用于 Rust 语言的机器人学库,以及它们的核心功能、使用场景、安装配置和 API 概览,旨在为机器人学爱好者和开发人员提供参考和指导。 欢迎订阅专栏:Rust光年纪 文章目录 机器人学+Rust语言=无限可能:

CF Bayan 2015 Contest Warm Up B.(dfs+暴力)

B. Strongly Connected City time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standard output 题目链接: http://codeforces.com/contest/475/probl

CF Bayan 2015 Contest Warm Up A.(模拟+预处理)

A. Bayan Bus time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standard output 题目链接: http://codeforces.com/contest/475/problem/A The fi

2015年校赛总结

题目名为“校赛总结”,其实更想换成“Rainbow为什么五题滚粗?!”。作为今年校赛大二没拆的两个队伍之一,结果打成这样,没脸见人了,总结起来就是我认为自己今天SB了。主要有以下几点: 1.我今天状态的确不好,最后卡的那道B题跟去年在农大校赛上遇见的那题类似,在最后那段时间我已经有思路了,可是由于当时不敢写。等到最后15分钟才开始敲,加上我用很麻烦的Dijstra那种方法,调试起来好多细节要处理

百度之星 2015 复赛 1001 (数长方形)

数长方形    Accepts: 595    Submissions: 1225  Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Problem Description 小度熊喜欢玩木棒。一天他在玩木棒的时候,发现一些木棒会形成长方形

百度之星 2015 初赛(1) 1002 找连续数

找连续数      Accepts: 401      Submissions: 1911  Time Limit: 2000/1000 MS (Java/Others)      Memory Limit: 32768/32768 K (Java/Others) Problem Description 小度熊拿到了一个无序的数组,对于这个数组,小度熊想知道是