图像处理与视觉感知复习--图像特征描述图像生成

2024-06-17 15:36

本文主要是介绍图像处理与视觉感知复习--图像特征描述图像生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 角点(关键点)的特点
  • 图像分类的流程
  • 梯度方向直方图(HOG)流程
  • 平移、旋转和尺度特征(SIFT)流程
  • 常用的图像生成模型
  • GAN的原理
  • Diffusion Model的原理
  • mAP计算方法

角点(关键点)的特点

  • 紧致&高效:关键点数目比像素少很多
  • 显著性:关键点是独特的、有特色的
  • 局部特性:关键点占据图像的相对较小区域;对杂波和遮挡具有鲁棒性
  • 重复性/再现性:无论几何或光学变换,同一关键点都能被检测到

图像分类的流程

在这里插入图片描述

梯度方向直方图(HOG)流程

在这里插入图片描述

平移、旋转和尺度特征(SIFT)流程

核心步骤:将一幅图像映射(变换)为一个局部特征向量集;特征向量具有平移、缩放、旋转不变性,同时对光照变化、仿射及投影变换也有一定不变性。

在这里插入图片描述
关键点定义:在不同尺度空间的图像下,检测出的具有方向信息的局部极值点。根据归纳我们可以看出特征点具有三个特征:尺度、方向、大小

关键点检测:

  • 尺度空间极值检测
  • 关键点定位
  • 确定关键点方向

关键点描述:

  1. 确定计算描述子所需的图像区域
  2. 将坐标移至关键点主方向,进行坐标旋转,以实现旋转不变性
  3. 在图像半径区域内,对每个像素点求其梯度幅值和方向,梯度幅值乘以高斯权重参数,生成方向直方图。
  4. 在窗口宽度为 2 × 2 2 \times 2 2×2的区域内计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点
  5. 描述子向量元素门限及门限化后的描述子向量规范化。

关键点匹配:
可以采用穷举法完成。一般都采用一种kd树的数据结构来完成搜索。

常用的图像生成模型

  • 变分自编码器(VAE)
  • 扩散模型(Diffusion Model)
  • 生成对抗网络(Generative Adversarial Network, GAN)

GAN的原理

GAN的训练过程如下:

  • 训练鉴别器
    1. 从训练集中随机抽取真实样本x
    2. 获取一个新的随机噪声向量,并使用生成器生成一个伪造实例 x f x_f xf
    3. 使用鉴别器x和 x f x_f xf进行分类
    4. 计算分类误差并方向传播总误差,以更新鉴别器的可训练参数,将分类误差降至最低
  • 训练生成器
    1. 获得一个新的随机噪声向量z,并使用生成器生成一个伪造示例 x f x_f xf
    2. 使用鉴别器对 x f x_f xf进行分类
    3. 计算分类误差并反向传播该误差,以更新生成器的可训练参数,使鉴别器误差最大化
  • 结束
    平衡状态:
    1. 生成器生成的伪造示例与训练数据集中的真实示例没有区别
    2. 鉴别器只能依靠随机猜测来确定一个特定示例是真实还是伪造的(以1:1的比例猜测一个示例是真实的)

Diffusion Model的原理

扩散模型受扩散原理的启发,扩散模型的工作原理是通过添加高斯噪声(这个步骤是Forward diffusion process)来破坏训练数据,然后学习如何通过逐步反转该添加噪声的过程(这个步骤是reverse process)来恢复原始信息。经过训练,这些模型可以通过充满噪声的图片预测noise、减去 noise然后生成新图片。模型通过最大似然化估计进行训练,目标是学习如何从任意噪声水平的数据恢复到真实数据,在训练完成后,数据生成从标准高斯噪声开始,逐步应用学到的逆变换,通过去噪声步骤逐步生成最终的数据样本。

mAP计算方法

重新定义 T P , F P , T N , F N TP, FP, TN, FN TP,FP,TN,FN

  • T P TP TP: 有预测的边界框与给定类的目标边界框的 I O U > 0.5 IOU > 0.5 IOU>0.5
  • F P FP FP: 有预测的边界框与给定的目标边界框的 I O U < 0.5 IOU < 0.5 IOU<0.5
  • F N FN FN: 对于目标边界框没有预测的边界框

在这里插入图片描述

  • 准确率:衡量的是预测为正的结果中,实际正确的比例
    P r e c i s i o n = T P T P + F P Precision = \dfrac{TP}{TP + FP} Precision=TP+FPTP

  • 召回率:测量正确预测的实际正例的比例
    R e c a l l = T P T P + F N Recall = \dfrac{TP}{TP + FN} Recall=TP+FNTP

  • 平均精度(Average Precision, AP)衡量了模型对正样本的预测准确性,通过不同的召回率下计算并平均精确率来得到,(绘制PR图,下面的面积)形成一个曲线下的面积,较高AP值意味着模型具有更好的检测性能,而AP = 1表示模型的检测是完美的

这篇关于图像处理与视觉感知复习--图像特征描述图像生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1069836

相关文章

可视化实训复习篇章

前言: 今天,我们来学习seaborn库可视化,当然,这个建立在Matplotlib的基础上,话不多说,进入今天的正题吧!当然,这个是《python数据分析与应用》书中,大家有需求的可以参考这本书。 知识点: Matplotlib中有两套接口分别是pyplot和pyylab,即绘图时候主要导入的是Matplotlib库下的两个子模块(两个py文件)matplotlib.pyplot和matp

数据库期末复习知识点

A卷 1. 选择题(30') 2. 判断范式(10') 判断到第三范式 3. 程序填空(20') 4. 分析填空(15') 5. 写SQL(25') 5'一题 恶性 B卷 1. 单选(30') 2. 填空 (20') 3. 程序填空(20') 4. 写SQL(30') 知识点 第一章 数据库管理系统(DBMS)  主要功能 数据定义功能 (DDL, 数据定义语

android 带与不带logo的二维码生成

该代码基于ZXing项目,这个网上能下载得到。 定义的控件以及属性: public static final int SCAN_CODE = 1;private ImageView iv;private EditText et;private Button qr_btn,add_logo;private Bitmap logo,bitmap,bmp; //logo图标private st

复习2-20240624

vscode 使用 Javabean (封装性) public class Demo01 {/*1.原则 : 字母 数字 $ _ 中文 除了 这五个 其它都不可以2. 细则 : 数字 不能 开头%hbviunh &hfiureh )nhjrn 7487j -ni +hbiu tgf h

操作系统实训复习笔记(1)

目录 Linux vi/vim编辑器(简单) (1)vi/vim基本用法。 (2)vi/vim基础操作。 进程基础操作(简单) (1)fork()函数。 写文件系统函数(中等) ​编辑 (1)C语言读取文件。 (2)C语言写入文件。 1、write()函数。  读文件系统函数(简单) (1)read()函数。 作者本人的操作系统实训复习笔记 Linux

【云计算 复习】第1节 云计算概述和 GFS + chunk

一、云计算概述 1.云计算的商业模式 (1)软件即服务(SaaS) 有些景区给游客提供烧烤场地,游客需要自己挖坑或者砌烧烤台,然后买肉、串串、烧烤。 (2)平台即服务(PaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,游客只需要自己带食材和调料、串串、烧烤。 (3)基础设施即服务(IaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,还有专门的厨师来烧烤,用户不需要关心前面的所有

数据库原理与安全复习笔记(未完待续)

1 概念 产生与发展:人工管理阶段 → \to → 文件系统阶段 → \to → 数据库系统阶段。 数据库系统特点:数据的管理者(DBMS);数据结构化;数据共享性高,冗余度低,易于扩充;数据独立性高。DBMS 对数据的控制功能:数据的安全性保护;数据的完整性检查;并发控制;数据库恢复。 数据库技术研究领域:数据库管理系统软件的研发;数据库设计;数据库理论。数据模型要素 数据结构:描述数据库

FastAdmin/bootstrapTable 表格中生成的按钮设置成文字

公司有个系统后台框架用的是FastAdmin,后台表格的操作栏按钮只有图标,想要设置成文字。 查资料后发现其实很简单,主需要新增“text”属性即可,如下 buttons: [{name: 'acceptcompany',title: '复核企业',text:'复核企业',classname: 'btn btn-xs btn-primary btn-dialog',icon: 'fa fa-pe

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

PHP生成csv格式Excel,秒级别实现excel导出功能

防止报超内存,兼容中文,兼容科学技术法。 爽。。。。很爽。。。。 /*** 告诉浏览器下载csv文件* @param string $filename*/public static function downloadCsv($data, $filename, $encoding = 'utf-8'){header("Content-type: text/csv");header("Conten