图像处理与视觉感知复习--图像特征描述图像生成

本文主要是介绍图像处理与视觉感知复习--图像特征描述图像生成，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

角点（关键点）的特点
图像分类的流程
梯度方向直方图（HOG）流程
平移、旋转和尺度特征（SIFT）流程
常用的图像生成模型
GAN的原理
Diffusion Model的原理
mAP计算方法

角点（关键点）的特点

紧致&高效：关键点数目比像素少很多
显著性：关键点是独特的、有特色的
局部特性：关键点占据图像的相对较小区域；对杂波和遮挡具有鲁棒性
重复性/再现性：无论几何或光学变换，同一关键点都能被检测到

图像分类的流程

在这里插入图片描述

梯度方向直方图（HOG）流程

在这里插入图片描述

平移、旋转和尺度特征（SIFT）流程

核心步骤：将一幅图像映射（变换）为一个局部特征向量集；特征向量具有平移、缩放、旋转不变性，同时对光照变化、仿射及投影变换也有一定不变性。

在这里插入图片描述
关键点定义：在不同尺度空间的图像下，检测出的具有方向信息的局部极值点。根据归纳我们可以看出特征点具有三个特征：尺度、方向、大小

关键点检测：

尺度空间极值检测
关键点定位
确定关键点方向

关键点描述：

确定计算描述子所需的图像区域
将坐标移至关键点主方向，进行坐标旋转，以实现旋转不变性
在图像半径区域内，对每个像素点求其梯度幅值和方向，梯度幅值乘以高斯权重参数，生成方向直方图。
在窗口宽度为 $\times 2$ 的区域内计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点
描述子向量元素门限及门限化后的描述子向量规范化。

关键点匹配：
可以采用穷举法完成。一般都采用一种kd树的数据结构来完成搜索。

常用的图像生成模型

变分自编码器（VAE）
扩散模型（Diffusion Model）
生成对抗网络（Generative Adversarial Network, GAN）

GAN的原理

GAN的训练过程如下：

训练鉴别器
1. 从训练集中随机抽取真实样本x
2. 获取一个新的随机噪声向量，并使用生成器生成一个伪造实例 $x_f$
3. 使用鉴别器x和 $x_f$ 进行分类
4. 计算分类误差并方向传播总误差，以更新鉴别器的可训练参数，将分类误差降至最低
训练生成器
1. 获得一个新的随机噪声向量z，并使用生成器生成一个伪造示例 $x_f$
2. 使用鉴别器对 $x_f$ 进行分类
3. 计算分类误差并反向传播该误差，以更新生成器的可训练参数，使鉴别器误差最大化
结束
平衡状态：
1. 生成器生成的伪造示例与训练数据集中的真实示例没有区别
2. 鉴别器只能依靠随机猜测来确定一个特定示例是真实还是伪造的（以1:1的比例猜测一个示例是真实的）

Diffusion Model的原理

扩散模型受扩散原理的启发，扩散模型的工作原理是通过添加高斯噪声（这个步骤是Forward diffusion process）来破坏训练数据，然后学习如何通过逐步反转该添加噪声的过程（这个步骤是reverse process）来恢复原始信息。经过训练，这些模型可以通过充满噪声的图片预测noise、减去 noise然后生成新图片。模型通过最大似然化估计进行训练，目标是学习如何从任意噪声水平的数据恢复到真实数据，在训练完成后，数据生成从标准高斯噪声开始，逐步应用学到的逆变换，通过去噪声步骤逐步生成最终的数据样本。

mAP计算方法

重新定义 $TP, FP, TN, FN$

$TP$ : 有预测的边界框与给定类的目标边界框的 $I O U > 0.5$
$FP$ : 有预测的边界框与给定的目标边界框的 $I O U < 0.5$
$FN$ : 对于目标边界框没有预测的边界框

在这里插入图片描述

准确率：衡量的是预测为正的结果中，实际正确的比例
$\dfrac{TP}{TP + FP}$
召回率：测量正确预测的实际正例的比例
$\dfrac{TP}{TP + FN}$
平均精度（Average Precision, AP）衡量了模型对正样本的预测准确性，通过不同的召回率下计算并平均精确率来得到，（绘制PR图，下面的面积）形成一个曲线下的面积，较高AP值意味着模型具有更好的检测性能，而AP = 1表示模型的检测是完美的