VLFeat翻译,毕设内容,初次尝试,欢迎指正啊~~

2024-01-21 21:58

本文主要是介绍VLFeat翻译,毕设内容,初次尝试,欢迎指正啊~~,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VLFeat教程
局部特征帧
本篇介绍在VLFeat中频繁使用的局部特征帧的概念。特征帧又称帧,是用来表示图像特征的位置或形状的几何图形,包括点、圆或椭圆等。帧的类型在某些类别的平面变换下封闭(例如圆在相似变换下封闭),可在相应的协变特征检测器中使用。

帧的类型
VLFeat使用以下五种类型的帧:
1. 通过中心(x,y)定义的点;
2. 通过中心(x,y)和半径σ定义的圆;
3. 通过中心T=(x,y)和一个半定矩阵 Σ 定义的椭圆,所述椭圆由属于集合{x∈R2:(x−T)⊤Σ−1(x−T)=1}的点 构成;
4. 通过中心(x,y)、半径σ和旋转度θ定义的定向圆;
5. 通过仿射变换 (A,T)定义的定向椭圆, 其中A∈R2×2是线性部分, T∈R2 是变换;
每种类型的帧可以被2,3,4,5或6个数字分别代表,使用 vl_plotframe中详述的协议打包成一个向量帧。

作为几何帧的特征帧
一帧的作用是双重的。首先,它指定了一个局部的图像区域。其次也更更重要的是,它指定了一个图像变换。一帧的实例其实也可以看作是一个规范或标准帧的变体。
例如,一个点(x , y)的可以看作是规范点帧的变体,规范点帧即为原点( 0,0 )。同样,中心为(x ,y),半径为σ的一个圆可以看作是规范圆帧的变体,规范圆帧即为中心在原点的单位圆。
一般来说,不同类型的帧在不同类别的二维变换下封闭。例如,点在所有的变换下都封闭,然而圆盘在刚体运动、相似性等变换下封闭,但在一般的仿射变换中不封闭。在一类可兼容的变换中,如果一帧只能通过标准帧的唯一一种变换获得,那么它就是唯一的。举例来说,一个点(x ,y)的可以由(0,0)通过唯一的变换T =( X,Y)获得的。同样地,一个圆可以由标准圆经过唯一的变换和重新缩放得到。然而,无论是一个点或是一个圆都足以完全指定一个相似变换(例如,一个圆的旋转度未确定) 。
由于帧指定图像域的变换,即坐标的变化,因此它们是几何参考帧的代表。特别是,从标准帧到由局部特征检测子检测的帧的映射通常消除了局部图像外观的规范化,这是特征不变描述子在计算中的关键过程。

定向帧
虽然非定向帧(点、圆和椭圆)很容易理解,但他们的定向变形则需要加以解释。直观上,一个定向圆(椭圆)是一个由半径指明其方向的圆(椭圆),如下图所示:

标准定向帧:半径指向下,圆心位于原点的单位圆。这个帧可以看成是没有进过变换和旋转且具有单位半径的定向圆盘,编码为4维向量[0;0;1;0];或者,也可以看成是经过仿射变换 (I,0) 的定向椭圆,编码为6维向量[0;0;1;0;0;1]。图像由vl_demo_frame生成。
图像是通过 vl_plotframe函数生成:
A = eye(2) ;
T = [0;0] ;
f = [T ; A(:)] ;
vl_plotframe(f) ;
这种特定的定向帧通常被认为是标准的,如上面的代码段所示,它对应特定的仿射变换。因为椭圆也是一个圆,该帧可以等效地由一个具有单位半径且没有旋转的定向圆表示。
radius = 1 ;
theta = 0 ;
f = [T ; radius ; theta] ;
vl_plotframe(f)
帧旋转的正向是顺时针方向,因为图像使用的是左手坐标系(Y轴的正方向朝下):

旋转45度后的帧,注意旋转是顺时针的,这是因为图像使用了左手系(Y轴的正方向朝下)。图像通过 vl_demo_frame生成
radius = 1 ;
theta = pi/4 ;
f = [T ; radius ; theta] ;
vl_plotframe(f) ;
如上所示,帧经常用于指定图像的变换。特别是,定向椭圆和定向圆可以通过上面所示的标准定向圆经过独特的仿射变换获得(所不同的是,定向椭圆封闭于所有的仿射变换,而定向圆并不是封闭于所有的仿射变换)。
对于定向椭圆,仿射变换(A,T)在用数值表示它的帧向量中是明确编码的。如以下代码所示
f = [T ; A(:)] ;
vl_plotframe(f) ;
生成图像

定向椭圆指定为如上所示的标准定向帧的仿射变换 (A,T)。图像由 vl_demo_frame生成。
需要注意的是,当特征用检测子,例如 vl_covdet 或 vl_sift提取时均进行了归一化,这是通过应用仿射变换完成的,其中的仿射变换是由特征帧指定的一个的逆变换;以这种方式,帧实际上变换成了它的标准式。
类似的,非定向帧可以看成是标准非定向帧(位于原点的单位圆)的仿射变换。但是,在这种情况下,仿射变换 (A,T) 仅由旋转(AR,T)决定。>当歧义存在而且需要选中一个仿射变换(A,T)时,通常会选择R使得图像的Y轴映射到其自身(见下)。
帧类型之间的转化
函数 vl_frame2oell可以将任意一种帧类型转换成定向椭圆。
由于所有的定向帧都是定向椭圆的特例,对于定向圆和定向椭圆来说,它们之间的变换是毫无意义的。另一方面,将非定向帧变为定向帧需要指定(任意)一个方向给它们。 当在转换过程中需要指定一个任意方向时,默认仿射变换(A,T)是向上的。这也就意味着A将Y轴映射到它自身。

通过将定向帧的方向去除然后由vl_frame2oell重新生成定向椭圆的过程可以更好的理解这一过程:在这个过程中,方向信息丢失,取而代之的是默认方向。

第一行:随机采样的定向椭圆。第二行:与第一行相同的椭圆但是将方向移除了。第三行:由vl_frame2oell重新生成的定向椭圆;注意方向是Y轴正向。图像由vl_demo_frame生成。


这篇关于VLFeat翻译,毕设内容,初次尝试,欢迎指正啊~~的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/630946

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位:为1时表示在内存期间被访问过,为0时表示未被访问;修改位:为1时表示该页面自从被装入内存后被修改过,为0时表示未修改过。 置换页面时,最先置换访问位和修改位为00的,其次是01(没被访问但被修改过)的,之后是10(被访问了但没被修改过),最后是11。 2.内聚的类型 功能内聚:完成一个单一功能,各个部分协同工作,缺一不可。 顺序内聚:

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频)

这是什么系统? 资源获取方式在最下方 java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频) 停车管理信息系统是为了提升停车场的运营效率和管理水平而设计的综合性平台。系统涵盖用户信息管理、车位管理、收费管理、违规车辆处理等多个功能模块,旨在实现对停车场资源的高效配置和实时监控。此外,系统还提供了资讯管理和统计查询功能,帮助管理者及时发布信息并进行数据分析,为停车场的科学

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

【python计算机视觉编程——8.图像内容分类】

python计算机视觉编程——8.图像内容分类 8.图像内容分类8.1 K邻近分类法(KNN)8.1.1 一个简单的二维示例8.1.2 用稠密SIFT作为图像特征8.1.3 图像分类:手势识别 8.2贝叶斯分类器用PCA降维 8.3 支持向量机8.3.2 再论手势识别 8.4 光学字符识别8.4.2 选取特征8.4.3 多类支持向量机8.4.4 提取单元格并识别字符8.4.5 图像校正

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

linux dlopen手册翻译

名称 dlclose, dlopen, dlmopen 打开和关闭一个共享对象 简介 #include <dlfcn.h>void *dlopen(const char*filename, int flags);int dlclose(void *handle);#define _GNU_SOURCE#include <dlfcn.h>void *dlmoopen(Lmid_t lm

JS中【记忆函数】内容详解与应用

在 JavaScript 中,记忆函数(Memoization)是一种优化技术,旨在通过存储函数的调用结果,避免重复计算以提高性能。它非常适用于纯函数(同样的输入总是产生同样的输出),特别是在需要大量重复计算的场景中。为了彻底理解 JavaScript 中的记忆函数,本文将从其原理、实现方式、应用场景及优化方法等多个方面详细讨论。 一、记忆函数的基本原理 记忆化是一种缓存策略,主要用于函数式编