CCF BDCI|算能赛题决赛选手说明论文-05

2023-11-09 16:20

本文主要是介绍CCF BDCI|算能赛题决赛选手说明论文-05,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于TPU平台实现人群密度估计

队伍:SO-FAST

宋礼
 算法工程师
 京东科技
 中国-北京 
 song200626@163.com
柯嵩宇
计算机科学与技术专业 博士
 上海交通大学
中国-上海 
 songyuke@sjtu.edu.cn
包锴楠
计算机科学与技术 硕士
 西南交通大学
中国-成都
 baokainan123@gmail.com

团队简介

SO-FAST的团队成员共3人,包括来自京东科技的算法工程师宋礼,他主要从事人工智能算法在城市场景的工程化落地。柯嵩宇,来自上海交通大学的在读博士生,他的主要研究是人工智能和数据挖掘领域,他对计算机硬件和并行计算等有深入了解。 包锴楠来自西南交通大学的在读硕士生,他主要研究深度学习、自动机器学习的应用。团队成员在深度学习和人工智能的工程化落地工作中具有丰富的经验,支持了JRTC中智能降噪技术在音视频会议场景下的优化等。团队成员追求速度的极致,曾致力于自动机器学习技术在城市场景中的加速优化,完成面向时空数据的自动机器学习算法库EAST等。

在本次竞赛的过程中,宋礼负责比赛方案的设计和模型的量化工作,柯嵩宇负责了模型量化后的模型优化工作,包锴楠负责模型部署过程中的推理加速工作。

摘要

基于TPU平台实现人群密度估计致力于人群密度估计任务在TPU平台的落地。人群密度估计是计算机视觉中的一项重要任务,在城市中的人群聚集预警、公共空间设计、城市规划等领域具有辅助意义。实际的应用场景通常面临功耗、成本、实时性等指标要求。基于TPU平台实现人群密度估计题目要求使用算能提供的低功耗的TPU算力实现精度更高、速度更快的人群密度估计算法。

为实现人群密度估计算法在TPU平台的部署,我们的实施步骤主要包括以下5个流程。

第一步,模型选择。通过对预训练模型的理论效果分析和实际模型推理效果在测试集上的指标评估,对比不同模型的最终得分,从而选定预训练模型。

第二步,模型量化。为了使用TPU平台的强大计算能力,需要使用算能的量化工具对模型进行量化,并评估量化后模型的精度。

第三步,精度调优。对量化后模型的精度进行调优,一般量化使用INT8类型的数据来替代FALOT32类型的数据从而加速计算,该过程会引入模型精度的损失。我们主要通过筛选图片构建用于量化的数据集来较少模型精度的损失。

第四步,推理加速。实现模型部署过程中的推理加速,通过分析模型推理过程中的核心耗时部分,我们针对性地使用了4N Batch和图片划分等方式,提升模型的推理速度。

最后,部署实测。我们将模型部署到BM1684平台,测试模型的实际性能,最终的评估结果表明我们的方案在A/B榜的测试数据上均获得了第一名。

关键词

人群密度估计,TPU,模型量化,模型部署

1 赛题介绍

基于TPU平台实现人群密度估计[1]要求参赛者使用预训练的模型,将模型部署到算能提供TPU平台[2]上。如图 1所示人群密度估计,输入一个高质量的图片,然后通过人群密度估计模型实现人群密度的估计。人群密度估计是计算机视

图 1 :人群密度估计任务

 

觉中的一项重要任务,在人群聚集预警、人群疏散、城市公共空间设计等任务中具有重要辅助作用。然而实际的模型部署依然面临很大的挑战,如推理的功耗、网络带宽、推理时延等。在模型部署的过程中需要兼顾模型的精度和模型的推理速度。本次任务采用以下综合评分:

score=(250-mae_{_score})*0.2+(500-rmse_{score})*0.1+(0.4-nae_{score})*200+(2-time_{score})*100

其中,mae_{_score}, rmse_{score}, nae_{score} 是用于评估模型估计人群密度和真实人群密度的误差,要求误差越低越好。 time_{score}是模型的平均推理时间,要求推理时间越低越好。

2 解题思路

我们的实施方案一共包含5个步骤,下面我们将分别介绍每部分的内容。

2.1 预训练模型评估

我们首先从理论上分析每个模型的精度上限,并选择未量化的模型在测试数据集(A榜)评估模型的实际效果。测试结果如图 2所示。

图 2 :人群密度估计任务 

由于模型在部署的过程中除了要求考虑模型的精度,还要考虑模型的计算量,我们选择精度最高和精度最差的两个模型同时进行后续的量化和部署的过程。

2.2模型量化

模型量化可以支持将模型量化成FLOAT32和INT8两种类型,其中,FLOAT32的数据类型可以实现更高的精度,但推理速度会慢很多。INT8的数据类型会损失一定的模型定都,但可以使用TPU提供的强大算力,极大的加速模型的推理过程。我们基于CSRNet[3]测试了模型量化成两种不同数据类型的最终评分情况,测试结果如图 3所示。从图中可以看出,虽然FP32模型的精度更高,但在实际的推理过程中消耗了太多的时间,导致最后评分不如INT8的模型。于是在后续的量化和优化过程中,我们选择使用INT8的数据类型。

图 3 :量化为不同数据类型性能对比 

由于竞赛平台提供了模型量化的示例,我们不再赘述,具体的操作可以参考链接[4]。具体我们使用的量化和量化的过程参考链接[5]。值得注意的是,我们在量化过程中支持了4N batch推理模型,其中量化使用的命令如下。4N Batch对于模型推理的加速效果参考2.4推理加速。

图 4 :4N Batch量化指令 

2.3 模型优化

由于将FLOAT32的数据类型,量化为了INT8的数据类型,这就导致计算过程中误差的累计,从而导致最终估计人群密度的精度降低。我们主要通过对量化图片的选择来提升量化后模型的性能。具体来说,传统的量化方式通过若干张图片作为输入,计算模型中间网络层的最大值和最小值,然后将该区间映射到INT8的范围内。由于可能选择的图片差距很大,这样会使得中间层网络需要表达的范围增大,从而使得在映射到INT8的时候数据的误差较大。基于上述考虑,我们在量化的过程中对输入的图片进行筛选,从而保证输入的图片尽可能相似。目前,我们主要通过手动的方式进行量化图片的选择(选择的准则是图片中包含大规模的人群,且具有更加广泛的色差),后续我们会考虑评估如何自动化的选择量化图片。具体来说,我们选择了NWPU-Crowd数据集中的第178张图片,如图 5所示。我们评估了量化方式对人群密度估计精度的提升,结果如图 6所示。可以看出,使用我们的量化方式,相比传统的量化方式具有明显的效果提升。

图 5 :用于模型量化的图片 

图 6 :CSRNet使用不同量化数据集的效果对比 

2.4 推理加速

我们首先分析在模型推理过程中核心耗时的部分,然后进行针对性的优化。根据我们的测试和观察推理过程中的耗时主要在多次调用TPU进行推理。基于此,我们主要进行两个方面的优化,优化需要调用TPU的推理次数和增加单次调用推理图片的数量。

优化1:TPU的推理次数。如图 7所示,由于原始的输出图片的尺寸很大,最大为2048x2048像素,而我们模型的输入张量的大小为576x768像素,所以我们需要将原始一张输入图片进行划分多个输入传入模型,然后融合多个子图片的结果,得到最终的人群密度估计数据。一方面对于单张输入图片需要推理的次数很多,如图 7需要至少进行9次模型推理调用;另一方面,由于对于图片的划分是存在重叠的(不能丢弃子图片,否则丢失子图片中的人群密度没有估计,可能造成较大的误差),而右边区域和下边区域的利用率是不高的。于是,我们首先对输入图片进行尺寸变换(Resize)。具体地,我们测试了尺寸变换为1张图片和2x2=4张图片的评分变化,结果如图 8所示,从图中可以看出,当尺寸变换为1时,模型的精度具有很大程度的损失。尺寸变换为4时可以取得较好的精度和推理时间的平衡,其中推理精度部分的得分从14.9分降低为7.11分,但推理时间从平均1.07s降低到平均0.5s,总体分数的提升约50分。

图 7 :优化的图像划分方式  

图 8 :不同划分方式的精度对比 

优化2: 4N Batch推理模式。目前在人群密度估计时,对于每个子图均需要调用一次推理过程,其推理时间和调用次数是线性相关的。4N Batch模式利用INT8数据类型和INT32数据类型之间的关系,在推理的过程中一次使用4N个图片输入,加入模型的推理过程,其过程如图 9所示。经测试相比于单次的4次推理,4N Batch一次推理4张图片约可以降低一半的时间(以CSRNet为例,4张图片的推理时间约为0.51s,4N Batch单次推理4张图片的时间为0.27s)。

图 9 :4N Batch推理模式 

除了上述的核心优化点外,我们还尝试了对推理代码的其他部分进行优化,包括使用的输入数据类型、读取图片的库的使用、后处理逻辑的优化等,具体实现参考[5]。

2.5 部署测试

将编译完成的模型和推理代码上传到算能TPU平台,即可完成推理测试。我们最终获得了A/B榜均为Top 1的性能,其中A榜得分229.73分,B榜得分263.78分。

致谢

感谢CCF大数据与计算智能大赛组委会、中国计算机学会和北京算能科技有限公司举办的第十届大赛,给我们提供了学习和实践的机会。感谢算能提供的TPU算力平台,让我们不断实践和完善想法。

参考

[1]    DataFountain,基于TPU平台实现人群密度估计, https://www.datafountain.cn/competitions/583

[2]   算能,算能产品介绍,https://sophon.cn/product/index.html

[3]   Li Yuhong and Zhang Xiaofan and Chen Deming, CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1091-1100, 2018.

[4]   算能,CCF-Contest-Demo, https://github.com/sophon-ai-algo/contest-demos

[5]   SO-FAST, 基于TPU平台实现人群密度估计 SO-FAST 题解, https://github.com/LeeSongt/SO-FAST

这篇关于CCF BDCI|算能赛题决赛选手说明论文-05的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/377218

相关文章

Java面试题:通过实例说明内连接、左外连接和右外连接的区别

在 SQL 中,连接(JOIN)用于在多个表之间组合行。最常用的连接类型是内连接(INNER JOIN)、左外连接(LEFT OUTER JOIN)和右外连接(RIGHT OUTER JOIN)。它们的主要区别在于它们如何处理表之间的匹配和不匹配行。下面是每种连接的详细说明和示例。 表示例 假设有两个表:Customers 和 Orders。 Customers CustomerIDCus

Modbus初学者教程,第三章:modbus寄存器说明

第三章:modbus寄存器说明 寄存器种类 Modbus协议中一个重要的概念是寄存器,所有的数据均存放于寄存器中。Modbus寄存器是指一块内存区域。Modbus寄存器根据存放的数据类型以及各自读写特性,将寄存器分为4个部分,这4个部分可以连续也可以不连续,由开发者决定。寄存器的意义如下表所示。 Modbus协议定义了设备间的数据传输方式,包括数据格式和通信规则。Modbus寄存器是协议中用

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

【经典算法】LeetCode 22括号生成(Java/C/Python3/Go实现含注释说明,中等)

作者主页: 🔗进朱者赤的博客 精选专栏:🔗经典算法 作者简介:阿里非典型程序员一枚 ,记录在大厂的打怪升级之路。 一起学习Java、大数据、数据结构算法(公众号同名) ❤️觉得文章还不错的话欢迎大家点赞👍➕收藏⭐️➕评论,💬支持博主,记得点个大大的关注,持续更新🤞 ————————————————- 首先,请注意题目链接有误,您提供的链接是LeetCode 14,但题目

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的