本文主要是介绍场景文本检测识别学习 day05(Transformer论文精读),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Transformer论文精读
- Transformer是第一个仅仅使用注意力机制来做序列转录的模型,它将所有的循环层都替换为了Multi-Head Self-Attention。
RNN
- 在传统的RNN中,我们给一个序列,RNN会将序列从左往右一步一步地计算,如果给一个句子,那么RNN会一个词一个词地计算
- RNN处理时序信息的过程:在计算第t个词时候,RNN会计算一个 h t h_t ht作为输出,叫做第t个词的隐藏状态(当前词之前的历史信息)。而 h t h_t ht是由 h t − 1 h_{t-1} ht−1和当前第t个词本身决定的,即根据前一个词的历史信息 h t − 1 h_{t-1} ht−1和当前词t进行计算,得到当前词的历史信息 h t h_t ht
- 综上:RNN通过将之前的历史信息全部放在隐藏状态里,然后一步一步的传下去,得到最后的输出 h t h_t ht
- 缺点:
- 由于是一步一步的计算,所以无法做并行,即当我们计算第t个词的时候,必须保证前t-1个词都计算完成,得到 h t − 1 h_{t-1} ht−1后才可以
- 由于是一步一步的计算,所以如果当时序比较长,那么很早期的时序信息会在后面被丢掉,如果不想丢掉就需要一个很大的隐藏状态,但是这样的话,每一步都需要存一个很大的 h t h_t ht,这很占内存空间
这篇关于场景文本检测识别学习 day05(Transformer论文精读)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!