ImageNet预训练图像分类模型预测单张图像

2024-01-31 14:44

本文主要是介绍ImageNet预训练图像分类模型预测单张图像,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导入基础工具包

import osimport cv2import pandas as pd
import numpy as npimport torchimport matplotlib.pyplot as plt
%matplotlib inline

计算设备确定

# 有 GPU 就用 GPU,没有就用 CPU
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

载入预训练模型

from torchvision import models
# 载入预训练图像分类模型model = models.resnet18(pretrained=True) # model = models.resnet152(pretrained=True)
model = model.eval() #将模型设为eval
model = model.to(device)

图像预处理,比较固定的四个部分,其他分类任务也可以用。

四步:

  1. 缩放裁剪
  2. 中心获取
  3. 转为Tensor
  4. 归一化处理:更近似于正态分布,易于神经网络处理。mean、std这六个数也是通用的。
from torchvision import transforms# 测试集图像预处理-RCTN:缩放裁剪、转 Tensor、归一化
test_transform = transforms.Compose([transforms.Resize(256),transforms.CenterCrop(224),transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])])

载入图片

# img_path = 'test_img/banana1.jpg'
# img_path = 'test_img/husky1.jpeg'
img_path = 'test_img/basketball_shoe.jpeg'# img_path = 'test_img/cat_dog.jpg'# 用 pillow 载入
from PIL import Image
img_pil = Image.open(img_path)

执行图像分类预测:

input_img = test_transform(img_pil) # 预处理,将图片传入图片与处理的函数

 转换模型所需要的维度:

input_img = input_img.unsqueeze(0).to(device)
input_img.shape

运行后为:

torch.Size([1, 3, 224, 224]),即一张3通道224*224的图片

执行前向预测:
 

# 执行前向预测,得到所有类别的 logit 预测分数
pred_logits = model(input_img) 
pred_logits.shape

结果为:

torch.Size([1, 1000])

利用softmax对分数大小进行比较:

import torch.nn.functional as F
pred_softmax = F.softmax(pred_logits, dim=1) # 对 logit 分数做 softmax 运算
pred_softmax.shape

预测结果分析

对softmax结果画一个柱状图:

plt.figure(figsize=(8,4))x = range(1000)
y = pred_softmax.cpu().detach().numpy()[0]ax = plt.bar(x, y, alpha=0.5, width=0.3, color='yellow', edgecolor='red', lw=3)
plt.ylim([0, 1.0]) # y轴取值范围
# plt.bar_label(ax, fmt='%.2f', fontsize=15) # 置信度数值plt.xlabel('Class', fontsize=20)
plt.ylabel('Confidence', fontsize=20)
plt.tick_params(labelsize=16) # 坐标文字大小
plt.title(img_path, fontsize=25)plt.show()

取置信度最大的n个结果:

n = 10
top_n = torch.topk(pred_softmax, n)
top_n

out:

torch.return_types.topk(
values=tensor([[0.5988, 0.3556, 0.0064, 0.0047, 0.0041, 0.0041, 0.0037, 0.0025, 0.0022,0.0022]], device='cuda:0', grad_fn=<TopkBackward0>),
indices=tensor([[430, 514, 522, 630, 502, 770, 427, 768, 805,  35]], device='cuda:0'))

解析出类别:

# 解析出类别
pred_ids = top_n[1].cpu().detach().numpy().squeeze()
pred_ids

out:

array([430, 514, 522, 630, 502, 770, 427, 768, 805,  35])

如何知道430、514是哪一类?

df = pd.read_csv('imagenet_class_index.csv')

将分类结果写在原图上:

# 用 opencv 载入原图
img_bgr = cv2.imread(img_path)for i in range(n):class_name = idx_to_labels[pred_ids[i]][1] # 获取类别名称confidence = confs[i] * 100 # 获取置信度text = '{:<15} {:>.4f}'.format(class_name, confidence)print(text)# !图片,添加的文字,左上角坐标,字体,字号,bgr颜色,线宽img_bgr = cv2.putText(img_bgr, text, (25, 50 + 40 * i), cv2.FONT_HERSHEY_SIMPLEX, 1.25, (0, 0, 255), 3)# 保存图像
cv2.imwrite('output/img_pred.jpg', img_bgr)# 载入预测结果图像
img_pred = Image.open('output/img_pred.jpg')
img_pred

 

预测结果用表格输出:

pred_df = pd.DataFrame() # 预测结果表格
for i in range(n):class_name = idx_to_labels[pred_ids[i]][1] # 获取类别名称label_idx = int(pred_ids[i]) # 获取类别号wordnet = idx_to_labels[pred_ids[i]][0] # 获取 WordNetconfidence = confs[i] * 100 # 获取置信度pred_df = pred_df.append({'Class':class_name, 'Class_ID':label_idx, 'Confidence(%)':confidence, 'WordNet':wordnet}, ignore_index=True) # 预测结果表格添加一行
display(pred_df) # 展示预测结果表格

 

这篇关于ImageNet预训练图像分类模型预测单张图像的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/664137

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}