业界首个视频识别与定位工具集PaddleVideo重磅更新

本文主要是介绍业界首个视频识别与定位工具集PaddleVideo重磅更新，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

飞桨 (PaddlePaddle) 致力于让深度学习技术的创新与应用更简单。7 月初，随着 Paddle Fluid 1.5 版本的发布，国内业界首个视频识别与定位工具集 PaddleVideo 也迎来了重磅更新。

PaddleVideo 在实际工业界可以形成很多具体应用，包括：视频精彩片段预测、关键镜头定位、视频剪辑等任务，例如定位 NBA 篮球赛视频中扣篮镜头，电视剧中的武打镜头等。如下图所示：

640?wx_fmt=png

本文末尾，为广大算法和开发同学准备了 PaddleVideo 模型实战的应用案例，视频剪辑、素材拼接和标题生成工作完全是程序模型自动完成的，极大地减轻了人力剪辑的工作量，效果也还不错。不过，在看具体模型具体应用之前，让我们可以先来了解一下 PaddleVideo。

1.PaddleVideo 是什么？

PaddleVideo 是飞桨在计算机视觉领域为用户提供的模型库 PaddleCV 中的视频识别与定位部分的模型库。PaddleVideo 的全部模型都是开源的，用户可以一键式快速配置模型完成训练和评测。

PaddleVideo 目前视频分类和动作定位模型包括：

640?wx_fmt=png

2.重磅更新内容详解

本次重磅更新要点如下：

增加动作定位模型 C-TCN，该模型是 2018 年 ActivityNet 夺冠方案。
增加已发布的模型骨干网络，Non-local 模型增加 ResNet101 和 l3d 网络结构
优化已经发布的分类模型，NeXtVLAD 训练速度提升 60%，TSM 训练速度领先同类框架 39%

首先是动作定位模型 C-TCN。在介绍模型前，需要了解一下 ActivityNet。

ActivityNet 是目前视频理解领域影响力最大的赛事，与每年的顶级学术会议 CVPR 一起召开。在 2019 年的竞赛中，百度公司计算机视觉团队获得视频动作提名、视频动作检测两项任务的冠军，并在新增任务 EPIC-Kitchens 动作识别挑战赛中获两项测试集冠军（Seen kitchens 和 Unseen kitchens）。这已是百度视觉团队连续三年在 ActivityNet 相关赛事中斩获冠军。

了解了 ActivityNet 比赛的含金量，我们快来看一下第 1 条更新：C-TCN 模型。

这篇关于业界首个视频识别与定位工具集PaddleVideo重磅更新的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！