首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
月结专题
月结——Transformer之上的一些故事
文章目录 Transformer模型解释 BertERNIEStyle Transformer Transformer 传统seq2seq的问题一般用CNN或者RNN的方式来处理,将seq编码为一个固定长度的向量然后再进行解码。因为固定长度向量所能表征的信息有限,因此对于长序列来说,前面的信息容易被埋没,即具有长程依赖问题,同时这种方式是顺序执行,使得没有办法进行并行计算。于是,
阅读更多...