NLP-生成模型-2017-Transformer（一）：Encoder-Decoder模型【非序列化；并行计算】【O(n²·d)，n为序列长度，d为维度】【用正余弦函数进行“绝对位置函数式编码”】

本文主要是介绍NLP-生成模型-2017-Transformer（一）：Encoder-Decoder模型【非序列化；并行计算】【O(n²·d)，n为序列长度，d为维度】【用正余弦函数进行“绝对位置函数式编码”】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《原始论文：Attention Is All You Need》

一、Transformer 概述

在2017年《Attention Is All You Need》论文里第一次提出Transformer之前，常用的序列模型都是基于卷积神经网络或者循环神经网络，表现最好的模型也是基于encoder- decoder框架的基础加上attention机制。

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNet，RoBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer.

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势:

这篇关于NLP-生成模型-2017-Transformer（一）：Encoder-Decoder模型【非序列化；并行计算】【O(n²·d)，n为序列长度，d为维度】【用正余弦函数进行“绝对位置函数式编码”】的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！