利用SuperGlue算法实现跨尺度金字塔特征点的高效匹配(含py代码)

本文主要是介绍利用SuperGlue算法实现跨尺度金字塔特征点的高效匹配(含py代码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       在计算机视觉领域,特征点匹配是一个基础而关键的任务,广泛应用于图像拼接、三维重建、目标跟踪等方向。传统的特征点匹配方法通常基于相同尺度下提取的特征进行匹配,然而在实际场景中,由于成像距离、分辨率等因素的差异,待匹配图像间存在显著的尺度变化,直接利用原始尺度的特征难以获得理想的匹配效果。为了克服这一难题,构建图像金字塔并在不同层级进行特征提取和匹配成为一种行之有效的策略。本文将给出如何使用图神经网络匹配算法SuperGlue的代码,实现跨金字塔层级的特征点高效匹配,充分利用不同尺度信息,显著提升匹配的准确性和鲁棒性。

1. 文件结构

2. 具体代码 

#! /usr/bin/env python3
import cv2
import torch   # 这一句
torch.set_grad_enabled(False) # 这一句
from models.matching import Matching # 这一句
from models.utils import (frame2tensor) # 这一句
import numpy as npconfig = {'superpoint': {'nms_radius': 4,'keypoint_threshold': 0.005,'max_keypoints': -1},'superglue': {'weights': 'outdoor','sinkhorn_iterations': 20,'match_threshold': 0.2,}
}
#
# device = 'cuda' if torch.cuda.is_available() else 'cpu'
device = 'cuda'
matching = Matching(config).eval().to(device)     # 这一句
keys = ['keypoints', 'scores', 'descriptors']
######################################################################################################
def match_frames_with_super_glue(frame0,frame1):print("正在调用基于 superGlue 匹配的函数进行特征点匹配...")  # 添加了print语句# 将参考帧和当前帧转换为PyTorch张量格式frame_tensor0 = frame2tensor(frame0, device)frame_tensor1 = frame2tensor(frame1, device)# 使用SuperPoint网络提取参考帧的特征点last_data = matching.superpoint({'image': frame_tensor0})# 将提取到的参考帧特征点数据转换为字典格式last_data = {k + '0': last_data[k] for k in keys}last_data['image0'] = frame_tensor0# 获取参考帧的特征点坐标kpts0 = last_data['keypoints0'][0].cpu().numpy()# 使用SuperGlue网络在参考帧和当前帧之间进行特征点匹配pred = matching({**last_data, 'image1': frame_tensor1})# 获取当前帧的特征点坐标kpts1 = pred['keypoints1'][0].cpu().numpy()# 获取特征点匹配结果和匹配置信度matches = pred['matches0'][0].cpu().numpy()confidence = pred['matching_scores0'][0].cpu().numpy()# 筛选出有效的匹配对valid = matches > -1mkpts0 = kpts0[valid]mkpts1 = kpts1[matches[valid]]# 打印匹配结果## print(f"----已经完成帧间的关键点匹配----")for i, (kp0, kp1) in enumerate(zip(mkpts0, mkpts1)):print(f"Match {i}: ({kp0[0]:.2f}, {kp0[1]:.2f}) -> ({kp1[0]:.2f}, {kp1[1]:.2f})")# 确保两个图像都是三通道if len(frame0.shape) == 2:vis_frame0 = cv2.cvtColor(frame0, cv2.COLOR_GRAY2BGR)else:vis_frame0 = frame0.copy()if len(frame1.shape) == 2:vis_frame1 = cv2.cvtColor(frame1, cv2.COLOR_GRAY2BGR)else:vis_frame1 = frame1.copy()# 绘制第一个输入图像及其特征点vis_frame0_with_kpts = vis_frame0.copy()for kp in kpts0:cv2.circle(vis_frame0_with_kpts, (int(kp[0]), int(kp[1])), 3, (0, 255, 0), -1)cv2.imshow("Input Frame 0 with Keypoints", vis_frame0_with_kpts)# 绘制第二个输入图像及其特征点vis_frame1_with_kpts = vis_frame1.copy()for kp in kpts1:cv2.circle(vis_frame1_with_kpts, (int(kp[0]), int(kp[1])), 3, (0, 255, 0), -1)cv2.imshow("Input Frame 1 with Keypoints", vis_frame1_with_kpts)# 绘制特征点for kp in mkpts0:cv2.circle(vis_frame0, (int(kp[0]), int(kp[1])), 3, (0, 255, 0), -1)for kp in mkpts1:cv2.circle(vis_frame1, (int(kp[0]), int(kp[1])), 3, (0, 255, 0), -1)# 调整高度一致,通过在较短的图像上下填充黑色背景max_height = max(vis_frame0.shape[0], vis_frame1.shape[0])if vis_frame0.shape[0] < max_height:diff = max_height - vis_frame0.shape[0]pad_top = np.zeros((diff // 2, vis_frame0.shape[1], 3), dtype=np.uint8)pad_bottom = np.zeros((diff - diff // 2, vis_frame0.shape[1], 3), dtype=np.uint8)vis_frame0 = np.vstack((pad_top, vis_frame0, pad_bottom))if vis_frame1.shape[0] < max_height:diff = max_height - vis_frame1.shape[0]pad_top = np.zeros((diff // 2, vis_frame1.shape[1], 3), dtype=np.uint8)pad_bottom = np.zeros((diff - diff // 2, vis_frame1.shape[1], 3), dtype=np.uint8)vis_frame1 = np.vstack((pad_top, vis_frame1, pad_bottom))# 计算右侧图像的垂直偏移量right_pad_top = pad_top.shape[0]# 绘制匹配线段concat_frame = np.hstack((vis_frame0, vis_frame1))for kp0, kp1 in zip(mkpts0, mkpts1):pt0 = (int(kp0[0]), int(kp0[1]))pt1 = (int(kp1[0]) + vis_frame0.shape[1], int(kp1[1]) + right_pad_top)cv2.line(concat_frame, pt0, pt1, (0, 255, 0), 1)# 缩小可视化窗口大小scale_factor = 1resized_frame = cv2.resize(concat_frame, None, fx=scale_factor, fy=scale_factor)# 显示可视化结果cv2.imshow("Matched Features", resized_frame)cv2.waitKey(0)cv2.destroyAllWindows()return mkpts0, mkpts1, confidence[valid]def build_pyramid(image, scale=1.2, min_size=(30, 30)):pyramid = [image]while True:last_image = pyramid[-1]width = int(last_image.shape[1] / scale)height = int(last_image.shape[0] / scale)if width < min_size[0] or height < min_size[1]:breaknext_image = cv2.resize(last_image, (width, height))pyramid.append(next_image)return pyramidif __name__ == "__main__":# 读取两帧图像frame0 = cv2.imread("/home/fairlee/786D6A341753F4B4/KITTI/sequences_kitti_00_21/01/image_0/000630.png", 0)frame1 = cv2.imread("/home/fairlee/786D6A341753F4B4/KITTI/sequences_kitti_00_21/01/image_0/000631.png", 0)# 构建 frame1 的金字塔pyramid1 = build_pyramid(frame1, scale=1.2)# # # 显示金字塔层# for i, layer in enumerate(pyramid1):#     cv2.imshow(f"Layer {i}", layer)#     cv2.waitKey(500)  # 显示500毫秒# cv2.destroyAllWindows()# 选择合适的金字塔层作为 frame1 的替代frame1_substitute = pyramid1[2]  # 例如,选择第二层# 调用match_frames_with_super_glue函数进行特征点匹配mkpts0, mkpts1, confidence = match_frames_with_super_glue(frame0, frame1_substitute)# 打印匹配结果print(f"第一帧的特征点匹配到的特征点数量: {len(mkpts0)}")print(f"第二帧的特征点匹配到的特征点数量: {len(mkpts1)}")print(f"匹配置信度的长度为: {len(confidence)}")

3. 运行结果

       代码实现展示了该方法的具体流程,通过选取合适的金字塔层作为待匹配图像的替代,实现了跨尺度的特征点匹配。实验结果表明,该方法能够有效地处理存在显著尺度变化的图像,获得数量可观且置信度较高的匹配点对,为后续的图像拼接、三维重建等任务提供了重要的基础。该方法的优越性在于巧妙地结合了图像金字塔的多尺度表示和SuperGlue的强大匹配能力,为解决复杂场景下的特征匹配难题提供了新的思路和方案。

这篇关于利用SuperGlue算法实现跨尺度金字塔特征点的高效匹配(含py代码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1045729

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象