基于OpenVINOTM开发套件“无缝”部署PaddleNLP模型

本文主要是介绍基于OpenVINOTM开发套件“无缝”部署PaddleNLP模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

作者：杨亦诚

任务背景

情感分析 ( Sentiment Analysis )

情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理，其广泛应用于消费决策、舆情分析、个性化推荐等领域，具有很高的商业价值。例如：食行生鲜自动生成菜品评论标签辅助用户购买，并指导运营采购部门调整选品和促销策略；房天下向购房者和开发商直观展示楼盘的用户口碑情况，并对好评楼盘置顶推荐；国美搭建服务智能化评分系统，客服运营成本减少40%，负面反馈处理率100%。

自然语言处理（NLP）技术

自然语言处理（英语：Natural Language Process，简称NLP）是计算机科学、信息工程以及人工智能的子领域，专注于人机语言交互，探讨如何处理和运用自然语言。最近几年，随着深度学习以及相关技术的发展，NLP领域的研究取得一个又一个突破，研究者设计各种模型和方法，来解决NLP的各类问题，其中比较常见包括LSTM, BERT, GRU, Transformer, GPT等算法模型。

方案简介

本方案采用PaddleNLP工具套件进行模型训练，并基于OpenVINOTM开发套件实现在Intel平台上的高效能部署。本文将主要分享如何在OpenVINOTM开发套件中“无缝”部署PaddlePaddle BERT模型，并对输出结果做验证。

PaddleNLP

PaddleNLP是一款简单易用且功能强大的自然语言处理开发库。聚合业界优质预训练模型并提供开箱即用的开发体验，覆盖NLP多场景的模型库搭配产业实践范例可满足开发者灵活定制的需求。

OpenVINO TM开发套件

OpenVINOTM开发套件是Intel平台原生的深度学习推理框架，自2018年推出以来，Intel已经帮助数十万开发者大幅提升了AI推理性能，并将其应用从边缘计算扩展到企业和客户端。英特尔于2022年巴塞罗那世界移动通信大会前夕，推出了英特尔®发行版OpenVINOTM开发套件的全新版本。其中的新功能主要根据开发者过去三年半的反馈而开发，包括更多的深度学习模型选择、更多的设备可移植性选择以及更高的推理性能和更少的代码更改。为了更好地对Paddle模型进行支持，新版OpenVINOTM开发套件分别做了一下升级：

直接支持Paddle格式模型

目前OpenVINO TM开发套件 2022.1发行版中已完成对PaddlePaddle模型的直接支持，OpenVINOTM开发套件的Model Optimizer工具已经可以直接完成对Paddle模型的离线转化，同时runtime api接口也可以直接读取加载Paddle模型到指定的硬件设备，省去了离线转换的过程，大大提升了Paddle开发者在Intel平台上部署的效率。经过性能和准确性验证，在OpenVINOTM开发套件 2022.1发行版中，会有 13个模型涵盖5大应用场景的Paddle模型将被直接支持，其中不乏像PPYolo和PPOCR这样非常受开发者欢迎的网络。

图：OpenVINOTM开发套件的MO和IE可以直接支持Paddle模型输入

全面引入动态输入支持

为了适配更广泛的模型种类，OpenVINOTM 2022.1版本的CPU Plugin已经支持了动态input shape，让开发者以更便捷的方式部署类似NLP或者OCR这样的网络，OpenVINOTM开发套件用户可以在不需要对模型做reshape的前提下，任意送入不同shape的图片或者向量作为输入数据，OpenVINOTM开发套件会自动在runtime过程中对模型结构与内存空间进行动态调整，进一步优化dynamic shape的推理性能.

图：在NLP中的Dynamic Input Shape

详细介绍可以参考：https://docs.openvino.ai/latest/openvino_docs_OV_UG_DynamicShapes.html

BERT原理简介

BERT结构介绍

BERT （Bidirectional Encoder Representations from Transformers）以Transformer 编码器为网络基本组件，使用掩码语言模型（Masked Language Model）和邻接句子预测（Next Sentence Prediction）两个任务在大规模无标注文本语料上进行预训练（pre-train），得到融合了双向内容的通用语义表示模型。以预训练产生的通用语义表示模型为基础，结合任务适配的简单输出层，微调（fine-tune）后即可应用到下游的NLP任务，效果通常也较直接在下游的任务上训练的模型更优。此前BERT即在GLUE评测任务上取得了SOTA的结果。

不难发现，其模型结构是Transformer的Encoder层，只需要将特定任务的输入，输出插入到Bert中，利用Transformer强大的注意力机制就可以模拟很多下游任务。(句子对关系判断，单文本主题分类，问答任务(QA)，单句贴标签(命名实体识别))，BERT的训练过程可以分成预训练和微调两部分组成。

预训练任务（Pre-training）

BERT是一个多任务模型，它的任务是由两个自监督任务组成，即MLM和NSP。

Task #1： Masked Language Model

所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词，然后通过的上下文预测该单词，该任务非常像我们在中学时期经常做的完形填空。正如传统的语言模型算法和RNN匹配那样，MLM的这个性质和Transformer的结构是非常匹配的。

Task #2: Next Sentence Prediction

Next Sentence Prediction（NSP）的任务是判断句子B是否是句子A的下文。如果是的话输出’IsNext‘，否则输出’NotNext‘。训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。