【变化检测】基于UNet建筑物变化检测

2024-08-25 04:12
文章标签 unet 建筑物 变化检测

本文主要是介绍【变化检测】基于UNet建筑物变化检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

主要内容如下:

1、LEVIR-CD数据集介绍及下载
2、运行环境安装
3、基于likyoo变化检测代码模型训练与预测
4、Onnx运行及可视化

运行环境:Python=3.8,torch1.12.0+cu113
likyoo变化检测源码:https://github.com/likyoo/change_detection.pytorch
使用情况:环境配置简单、训练速度也快。

1 LEVIR-CD数据集介绍

1.1 简介

LEVIR-CD 由 637 个超高分辨率(VHR,0.5m/像素)谷歌地球(GE)图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时态图像具有显着的土地利用变化,尤其是建筑增长。LEVIR-CD涵盖别墅住宅、高层公寓、小型车库、大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新的建筑区域的变化)和建筑衰退。这些双时态图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释者进行注释,然后由另一个进行双重检查以生成高质量的注释。
数据来源:https://justchenhao.github.io/LEVIR/
论文地址:https://www.mdpi.com/2072-4292/12/10/1662
快速下载链接:https://aistudio.baidu.com/datasetdetail/104390/1

1.2 示例

在这里插入图片描述

2 运行环境安装

2.1 基础环境安装

【超详细】跑通YOLOv8之深度学习环境配置1-Anaconda安装
【超详细】跑通YOLOv8之深度学习环境配置2-CUDA安装

创建Python环境及换源可借鉴如下:
【超详细】跑通YOLOv8之深度学习环境配置3-YOLOv8安装

2.2 likyoo变化检测代码环境安装

2.2.1 代码下载

在这里插入图片描述

2.2.2 环境安装
# 1 创建环境
conda create -n likyoo python=3.8
conda activate likyoo# 2 安装torch
# 方式1:
conda install pytorch==1.12.0 torchvision==0.13.0 torchaudio==0.12.0 cudatoolkit=11.3 -c pytorch
# 方式2:
pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu113# 3 验证torch安装是否为gpu版
import torch
print(torch.__version__)  # 打印torch版本
print(torch.cuda.is_available())  # True即为成功
print(torch.version.cuda)
print(torch.backends.cudnn.version())# 4 安装其他依赖库
cd ./change_detection.pytorch-main
pip install -r requirements.txt
pip install six  # 训练报错缺少该库

3 模型训练与预测

3.1 模型架构

在这里插入图片描述

3.1 模型训练

训练代码为local_test.py

  1. 选择不同的分割架构,详情见cdp的__init__.py
  2. 修改训练数据路径
  3. epoch可以修改72行MAX_EPOCH,默认为60,batchsize默认为8【本文改成32训练,测试效果比8好,显存占8G左右】;
    在这里插入图片描述

训练报错:RuntimeError: Attempted to set the storage of a tensor on device “cpu” to a storage on different device “cuda:0”. This is no longer allowed; the devices must match.

解决方法
在 hub.py里修改最后一行,删去, map_location=map_location
在这里插入图片描述

3.2 模型预测

新建predict.py脚本,复制如下内容【注意输入路径是否正确,否则报错】:

import cv2
import numpy as np 
import torch
from torch.utils.data import DataLoader, Dataset
import albumentations as A
import change_detection_pytorch as cdp
from change_detection_pytorch.datasets import LEVIR_CD_Dataset, SVCD_Dataset
from change_detection_pytorch.utils.lr_scheduler import GradualWarmupSchedulerDEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'model = cdp.Unet(encoder_name="resnet34",  # choose encoder, e.g. mobilenet_v2 or efficientnet-b7encoder_weights="imagenet",  # use `imagenet` pre-trained weights for encoder initializationin_channels=3,  # model input channels (1 for gray-scale images, 3 for RGB, etc.)classes=2,  # model output channels (number of classes in your datasets)siam_encoder=True,  # whether to use a siamese encoderfusion_form='concat',  # the form of fusing features from two branches. e.g. concat, sum, diff, or abs_diff.
)model_path = 'best_model.pth'  # 修改1
model.to(DEVICE)
# model.load_state_dict(torch.load(model_path))
model = torch.load(model_path)
model.eval()
test_transform = A.Compose([A.Normalize()])path1 = 'E:/datasets/LEVIR-CD/test/A/test_7.png'  # 修改2
img1 = cv2.imread(path1)
img1 = test_transform(image = img1)
img1 = img1['image']
img1 = img1.transpose(2, 0, 1)
img1 = np.expand_dims(img1,0)
img1 = torch.Tensor(img1)
img1 = img1.cuda()path2 = 'E:/datasets/LEVIR-CD/test/B/test_7.png'  # 修改3
img2 = cv2.imread(path2)
img2 = test_transform(image = img2)
img2 = img2['image']
img2 = img2.transpose(2, 0, 1)
img2 = np.expand_dims(img2,0)
img2 = torch.Tensor(img2)
img2 = img2.cuda()pre = model(img1,img2)
pre = torch.argmax(pre, dim=1).cpu().data.numpy() * 255
cv2.imwrite('./result/test_7_pre.png', pre[0])  # 修改4

3.3 结果显示

其中epoch=60结果:
在这里插入图片描述

4 Onnx运行及可视化

4.1 Onnx导出静态和动态文件

  1. 新建export.py脚本,导出onnx,复制如下内容:
import torch
import change_detection_pytorch as cdpmodel = cdp.Unet(encoder_name="resnet34",  # choose encoder, e.g. mobilenet_v2 or efficientnet-b7encoder_weights="imagenet",  # use `imagenet` pre-trained weights for encoder initializationin_channels=3,  # model input channels (1 for gray-scale images, 3 for RGB, etc.)classes=2,  # model output channels (number of classes in your datasets)siam_encoder=True,  # whether to use a siamese encoderfusion_form='concat',  # the form of fusing features from two branches. e.g. concat, sum, diff, or abs_diff.
)model_path = "best_model.pth"  # 修改1
model = torch.load(model_path)input1 = torch.randn(1, 3, 1024, 1024, device='cuda:0')
input2 = torch.randn(1, 3, 1024, 1024, device='cuda:0')# 保存静态onnx
torch.onnx.export(model, (input1, input2),"cd.onnx",input_names=["images1", "images2"],output_names=["output"],verbose=True, opset_version=12)# 保存动态onnx
torch.onnx.export(model, (input1, input2),"cd_dy.onnx",input_names=["images1", "images2"],output_names=["output"],verbose=True, opset_version=12,dynamic_axes={"images1": {0 :"batch_size", 2: "input_height", 3: "input_width"},"images2": {0 :"batch_size", 2: "input_height", 3: "input_width"},"output": {0 :"batch_size", 2: "output_height", 3: "output_width"}})
  1. 查看模型结构
    https://netron.app/
    静态onnx:
    在这里插入图片描述

    动态onnx:
    在这里插入图片描述

4.2 Onnx运行及可视化

4.2.1 Onnx推理运行
import os
import cv2
import time
import argparse
import numpy as np
import onnxruntime as ort  # 使用onnxruntime推理用上,pip install onnxruntime-gpu==1.12.0 -i https://pypi.tuna.tsinghua.edu.cn/simpleclass CD(object):def __init__(self, onnx_model, in_shape=1024):self.in_shape = in_shape  # 图像输入尺度self.mean = [0.485, 0.456, 0.406]  # 定义均值和标准差(确保它们与图像数据的范围相匹配)  self.std = [0.229, 0.224, 0.225]  # 基于0-1范围的# 构建onnxruntime推理引擎self.ort_session = ort.InferenceSession(onnx_model,providers=['CUDAExecutionProvider', 'CPUExecutionProvider']if ort.get_device() == 'GPU' else ['CPUExecutionProvider'])# 归一化 def normalize(self, image, mean, std):  # 如果均值和标准差是基于0-255范围的图像计算的,那么需要先将图像转换为0-1范围  image = image / 255.0  image = image.astype(np.float32)  image_normalized = np.zeros_like(image)  for i in range(3):  # 对于 RGB 的每个通道  image_normalized[:, :, i] = (image[:, :, i] - mean[i]) / std[i]  return image_normalizeddef preprocess(self, img_a, img_b):# resize为1024大小if img_a.shape[0] != self.in_shape and img_a.shape[1] != self.in_shape:img_a = cv2.resize(img_a, (self.in_shape, self.in_shape), interpolation=cv2.INTER_LINEAR)if img_b.shape[0] != self.in_shape and img_b.shape[1] != self.in_shape:img_b = cv2.resize(img_b, (self.in_shape, self.in_shape), interpolation=cv2.INTER_LINEAR)# 应用归一化  img_a = self.normalize(img_a, self.mean, self.std)img_b = self.normalize(img_b, self.mean, self.std)img_a = np.ascontiguousarray(np.einsum('HWC->CHW', img_a)[::-1], dtype=np.single)  # (1024, 1024, 3)-->(3, 1024, 1024), BGR-->RGBimg_b = np.ascontiguousarray(np.einsum('HWC->CHW', img_b)[::-1], dtype=np.single)  # np.single 和 np.float32 是等价的img_a = img_a[None] if len(img_a.shape) == 3 else img_a  # (1, 3, 256, 256)img_b = img_b[None] if len(img_b.shape) == 3 else img_breturn img_a, img_b# 推理def infer(self, img_a, img_b):im1, im2 = self.preprocess(img_a, img_b)  # --> (1, 3, 256, 256)preds = self.ort_session.run(None, {self.ort_session.get_inputs()[0].name: im1, self.ort_session.get_inputs()[1].name: im2})[0]  out_img = (np.argmax(preds, axis=1)[0] * 255).astype("uint8")  return out_imgif __name__ == '__main__':# Create an argument parser to handle command-line argumentsparser = argparse.ArgumentParser()parser.add_argument('--model', type=str, default='cd.onnx', help='Path to ONNX model')parser.add_argument('--source_A', type=str, default=str('E:/datasets/LEVIR-CD/test/A/test_7.png'), help='A期图像')parser.add_argument('--source_B', type=str, default=str('E:/datasets/LEVIR-CD/test/B/test_7.png'), help='B期图像')parser.add_argument('--in_shape', type=int, default=1024, help='输入模型图像尺度')args = parser.parse_args()# 实例化变化检测模型cd= CD(args.model, args.in_shape)t1 = time.time()# Read image by OpenCVimg_a = cv2.imread(args.source_A)img_b = cv2.imread(args.source_B)# 推理+输出out = cd.infer(img_a, img_b)# 保存结果cv2.imwrite('./result/test_7_res.png', out)print('总耗时:{}'.format(time.time() - t1))
4.2.2 结果可视化

注意:Onnx前处理与前面的pth不一样,结果略有不同。
显存:占用2G左右,速度:100ms左右(RTX4080)
在这里插入图片描述

4.2.3 后处理:

(1)可加入腐蚀膨胀处理,消除一些小白点等区域;
(2)将变化区域绘制在第二期图上,便于观察;

这篇关于【变化检测】基于UNet建筑物变化检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104513

相关文章

Unet改进10:在不同位置添加CPCA||通道先验卷积注意力机制

本文内容:在不同位置添加CPCA注意力机制 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 低对比度和显著的器官形状变化等特征经常出现在医学图像中。现有注意机制的自适应能力普遍不足,限制了医学影像分割性能的提高。本文提出了一种有效的通道先验卷积注意(CPCA)方法,该方法支持通道和空间维度上注意权重的动态分布。通过采用多尺度深度卷积模块,有效地提取

Open3D 基于法向的建筑物立面提取(40)

Open3D 基于法向的建筑物立面提取(40) 一、算法简介二、算法实现1.代码2.效果 一、算法简介 输入建筑物点云,计算每个点的法向,法向z轴分量小于一定阈值的点认为是立面点。立面点保留结果再去噪,下面是具体的实现代码和效果 二、算法实现 1.代码 代码如下(示例): import numpy as npimport open3d as o3d# 假设 pcd 是

【变化检测】基于Tinycd建筑物(LEVIR-CD)变化检测实战及ONNX推理

主要内容如下: 1、LEVIR-CD数据集介绍及下载 2、运行环境安装 3、Tinycd模型训练与预测 4、Onnx运行及可视化 运行环境:Python=3.8,torch1.12.0+cu113 likyoo变化检测源码:https://github.com/likyoo/open-cd 使用情况:代码风格属于openmmlab那套,通过修改配置文件config进行模型选择和训练、环境配置简

Unet改进8:在不同位置添加SpatialGroupEnhance||空间群智能增强:改进卷积网络中的语义特征学习

本文内容:在不同位置添加SpatialGroupEnhance 论文简介 卷积神经网络(Convolutional Neural Networks, cnn)通过收集分层的、不同部分的语义子特征来生成复杂对象的特征表示。这些子特征通常以分组的形式分布在每一层的特征向量中[43,32],代表各种语义实体。然而,这些子特征的激活往往受到相似模式和噪声背景的空间影响,导致错误的定位和识别。我们提

【数据分享】全球含建筑高度的建筑物数据(shp格式\约15亿栋建筑物)

建筑数据是我们在各项研究中经常使用到的数据。之前我们能获取到的建筑数据大多没有建筑高度信息,而建筑高度是建筑数据最重要的属性。之前我们给大家分享了我国分城市的含建筑高度的建筑物数据(可查看之前的文章获悉详情),本次我们继续给大家分享全球含建筑高度的建筑物数据。 该数据格式为shp矢量格式。数据坐标为WGS1984坐标。数据发布时间是2024年5月。数据本身的日期为2020年。数据发布于Zenod

Unet改进1:更换不同的激活函数

本篇内容:将unet中卷积模块的RELU激活函数替换为不同的激活函数,提高模型性能! 激活函数在人工神经网络(ANN)中起着至关重要的作用,它们是引入非线性特性的关键,使得神经网络能够学习和逼近复杂的非线性函数。如果没有激活函数,神经网络的每一层输出都是上一层输入的线性组合,这样的网络无论层数多少,整体仍然是线性的,无法处理复杂的模式。 目录 1.步骤一 2.步骤二 3.步骤三

Unet改进3:在不同位置添加NAMAttention注意力机制

本文内容:在不同位置添加NAMAttention注意力机制 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 识别不太显著的特征是模型压缩的关键。然而,它在革命性的注意机制中尚未得到研究。在这项工作中,我们提出了一种新的基于归一化的注意力模块(NAM),它抑制了较不显著的权重。它将权重稀疏性惩罚应用于注意力模块,从而使它们在保持类似性能的同时

学习UNET的记录一--SyncVar的使用

最近在学习使用UNET,记录下学习过程中用到的一些知识点。 using UnityEngine;using System.Collections;using UnityEngine.Networking;public class MyTest : NetworkBehaviour{[Range(0, 10)] //在Inpsector界面上,num的取值范围被限定在了[0,10];在

超高清图像生成新SOTA!清华唐杰教授团队提出Inf-DiT:生成4096图像比UNet节省5倍内存。

清华大学唐杰教授团队最近在生成超高清图像方面的新工作:Inf-DiT,通过提出一种单向块注意力机制,能够在推理过程中自适应调整内存开销并处理全局依赖关系。基于此模块,该模型采用了 DiT 结构进行上采样,并开发了一种能够上采样各种形状和分辨率的无限超分辨率模型。与常用的 UNet 结构相比,Inf-DiT 在生成 4096×4096 图像时可以节省超过 5 倍的内存。该模型在机器和人类评估中均实现

论文阅读Rolling-Unet,卷积结合MLP的图像分割模型

这篇论文提出了一种新的医学图像分割网络Rolling-Unet,目的是在不用Transformer的前提下,能同时有效提取局部特征和长距离依赖性,从而在性能和计算成本之间找到良好的平衡点。 论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/28173 1,动机(Motivation) 现阶段主流医学图像分割模型大多基于CNN和Tran