DBFace: 源码阅读(三)

2024-02-03 12:59
文章标签 源码 阅读 dbface

本文主要是介绍DBFace: 源码阅读(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

7 推断部分

推断部分主要是在test.py中

主要函数其实很短,如下,代码其实被我改了一部分,和原始的github上可能有点区别

mean = [0.408, 0.447, 0.47]
std = [0.289, 0.274, 0.278]# trial_name = "small-H-dense-wide64-UCBA-keep12-noext-ignoresmall2"trial_name = "mv2-320x320-without-wf_20200811"jobdir = f"jobs/{trial_name}"image = common.imread("imgs/selfie.jpg")
model = DBFace(has_landmark=True, wide=64, has_ext=True, upmode="DeCBA")
model.load(f"{jobdir}/models/74.pth")
model.eval()
model.cuda()outs = eval_tool.detect_image(model, image, mean, std, 0.2)
outs = nms(outs, 0.2)
print("objs = %d" % len(outs))
for obj in outs:common.drawbbox(image, obj)common.imwrite(f"{jobdir}/result.jpg", image)
print("ok")

model.load()下载对应的模型,推断最主要的函数是


outs = eval_tool.detect_image(model, image, mean, std, 0.2)

我们来看下detect_image函数:

def detect_image(model, image, mean, std, threshold=0.4):
# pad主要是因为网络推断中stride=32,所以为了保证可以上采样回去,需要进行pad操作image = common.pad(image)#预处理操作image = ((image / 255 - mean) / std).astype(np.float32)image = image.transpose(2, 0, 1)image = torch.from_numpy(image).unsqueeze(0).cuda()# 推断center, box, landmark = model(image)
#得到结果回归框中心点的heatmap,通过sigmoid来得到0-1center = center.sigmoid()box = torch.exp(box)# debug# center = F.max_pool2d(center, kernel_size=3, padding=1, stride=1)return detect_images_giou_with_netout(center, box, landmark, threshold)

我们再来看下detect_images_giou_with_netout这个函数:

def detect_images_giou_with_netout(output_hm, output_tlrb, output_landmark, threshold=0.4, ibatch=0):stride = 4_, num_classes, hm_height, hm_width = output_hm.shapehm = output_hm[ibatch].reshape(1, num_classes, hm_height, hm_width)tlrb = output_tlrb[ibatch].cpu().data.numpy().reshape(1, num_classes * 4, hm_height, hm_width)# landmark = output_landmark[ibatch].cpu().data.numpy().reshape(1, num_classes * 10, hm_height, hm_width)landmark = output_landmark[ibatch].cpu().data.numpy().reshape(1, num_classes * 50, hm_height, hm_width)# 使用最大池化来筛选值nmskey = _nms(hm, 3)# 选出top值2000,人脸较多的情况下值可以大一些,但是如果人脸比较少,或者图像比较小,建议还是小一些kscore, kinds, kcls, kys, kxs = _topk(nmskey, 2000)kys = kys.cpu().data.numpy().astype(np.int)kxs = kxs.cpu().data.numpy().astype(np.int)kcls = kcls.cpu().data.numpy().astype(np.int)key = [[], [], [], []]for ind in range(kscore.shape[1]):score = kscore[0, ind]if score > threshold:key[0].append(kys[0, ind])key[1].append(kxs[0, ind])key[2].append(score)key[3].append(kcls[0, ind])imboxs = []if key[0] is not None and len(key[0]) > 0:ky, kx = key[0], key[1]classes = key[3]scores = key[2]for i in range(len(kx)):class_ = classes[i]cx, cy = kx[i], ky[i]x1, y1, x2, y2 = tlrb[0, class_ * 4:(class_ + 1) * 4, cy, cx]x1, y1, x2, y2 = (np.array([cx, cy, cx, cy]) + np.array([-x1, -y1, x2, y2])) * stride# 根据关键点个数进行修改# x5y5 = landmark[0, 0:10, cy, cx]# x5y5 = np.array(common.exp(x5y5 * 4))# x5y5 = (x5y5 + np.array([cx] * 5 + [cy] * 5)) * stride# boxlandmark = list(zip(x5y5[:5], x5y5[5:]))x5y5 = landmark[0, 0:50, cy, cx]#注意这个exp()x5y5 = np.array(common.exp(x5y5 * 4))x5y5 = (x5y5 + np.array([cx] * 25 + [cy] * 25)) * strideboxlandmark = list(zip(x5y5[:25], x5y5[25:]))imboxs.append(common.BBox(label=str(class_), xyrb=common.floatv([x1, y1, x2, y2]), score=scores[i].item(),landmark=boxlandmark))return imboxs

最后将返回得到的候选框和关键点坐标在通过nms进行处理

def nms(objs, iou=0.5):if objs is None or len(objs) <= 1:return objsobjs = sorted(objs, key=lambda obj: obj.score, reverse=True)keep = []flags = [0] * len(objs)for index, obj in enumerate(objs):if flags[index] != 0:continuekeep.append(obj)for j in range(index + 1, len(objs)):if flags[j] == 0 and obj.iou(objs[j]) > iou:flags[j] = 1return keep

使用NMS来去除冗余的框,得到最后的结果

当中,其实有些细节,例如关键点的后处理要进行exp():

def exp(v):if isinstance(v, tuple) or isinstance(v, list):return [exp(item) for item in v]elif isinstance(v, np.ndarray):return np.array([exp(item) for item in v], v.dtype)gate = 1base = np.exp(1)if abs(v) < gate:return v * baseif v > 0:return np.exp(v)else:return -np.exp(-v)

为什么呢?我们来看下作者是怎么解释的?
在这里插入图片描述
第三篇还是有些细节是需要注意的,后面一篇写下转caffemodel?还是其他呢。。。

这篇关于DBFace: 源码阅读(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/674229

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

工厂ERP管理系统实现源码(JAVA)

工厂进销存管理系统是一个集采购管理、仓库管理、生产管理和销售管理于一体的综合解决方案。该系统旨在帮助企业优化流程、提高效率、降低成本,并实时掌握各环节的运营状况。 在采购管理方面,系统能够处理采购订单、供应商管理和采购入库等流程,确保采购过程的透明和高效。仓库管理方面,实现库存的精准管理,包括入库、出库、盘点等操作,确保库存数据的准确性和实时性。 生产管理模块则涵盖了生产计划制定、物料需求计划、

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

kubelet组件的启动流程源码分析

概述 摘要: 本文将总结kubelet的作用以及原理,在有一定基础认识的前提下,通过阅读kubelet源码,对kubelet组件的启动流程进行分析。 正文 kubelet的作用 这里对kubelet的作用做一个简单总结。 节点管理 节点的注册 节点状态更新 容器管理(pod生命周期管理) 监听apiserver的容器事件 容器的创建、删除(CRI) 容器的网络的创建与删除

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

red5-server源码

red5-server源码:https://github.com/Red5/red5-server