李宏毅-注意力机制详解

2024-05-12 05:52

文章标签 详解机制注意力李宏毅

本文主要是介绍李宏毅-注意力机制详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

原视频链接：attention

一. 基本问题分析

1. 模型的input

无论是预测视频观看人数还是图像处理，输入都可以看作是一个向量，输出是一个数值或类别。然而，若输入是一系列向量，长度可能会不同，例如把句子里的单词都描述为向量，那么模型的输入就是一个向量集合，并且每个向量的大小都不一样。解决这个问题的方法是One-hot Encoding以及Word Embedding，其中Word Embedding更能考虑到相似向量的语义信息，如下所示：

2. 模型的output

输出可以是每个vector都产生个对应的label，即N to N。如：在社交网络中，推荐某个用户商品（这个用户可能会买或者不买）；

也可以是N to 1。如：情感分析，给出一句话this is good，输出positive；反之给出另一段消极的话输出negative；

也可以是N to M。如：翻译工作，翻译到另一个语言可能和原语言单词长度不一样

3. attention的引入

比如我们想利用全连接网络，输入一个句子，输出对应单词的标签。当一个句子里出现两个相同的单词，并且它们的词性不同（例如：I saw a saw. 我看见一把锯子），这个时候就需要考虑上下文：利用滑动窗口，每个向量查看窗口中相邻的其他向量的性质。但是滑动窗口所观看的视野是有限的，窗口增大又会计算量增大，且容易过拟合，这就引出了self-attention机制。

二. self-attention机制

输入整个语句的向量到self-attention中，输出对应单词的向量，再将其结果输入到全连接网络，最后输出标签。以上过程可多次重复，如图所示：

1. 初探“self-attention层”内部机理

这里的a1-a4可以是输入的向量，也可以是隐藏层的输出，b1-b4都是观察到全局的信息（即a1-a4）才得到的输出，如下所示：

那么这里的b1-b4又是如何产生的呢？b1考虑了a1和这个序列里面哪些是重要的，哪些是次要的。这种重要程度指标通过α表示，即向量之间都有一个相关程度：

接下来考虑α是如何计算的，下图有两种方法，论文用的是第一种（图左侧），因此着重讲述。继续使用上面的例子，绿色方块代表两个向量a1和a4，我们想计算它们的相关度，将其分别乘上矩阵Wq与Wk（这两个矩阵是通过模型学习学到的）得到向量q与k，再将q与k做内积就得到α了。

这样我们可以分别计算出a2、a3、a4对应的k2、k3、k4（Wk是这些向量所共享的），我们可以分别计算出a1与a2、a3、a4的相关度α1,2、α1,3、α1,4，当然α1,1是和自己的相关度，也可以算。如下所示：

有了α后，我们可以考虑b1-b4的计算了，怎么使用这些α抽取关注的特征呢？我们再引入一个矩阵Wv(同样是学习得到的)，分别将a1-a4与Wv相乘得到v1-v4，将v1与α1,1相乘，v2与α1,2相乘...最后相加，即得到了b1。b2、b3、b4是同理的，下图只画出来了b1：

2. 再探“self-attention层”内部机理

看起来可能复杂，但是实际上涉及的参数只有输入的向量以及Wq、Wk、Wv三个矩阵。运算过程也都是矩阵乘法。我们从矩阵乘法的角度重新理解下，如下图所示，我们将输入向量a1-a4拼起来，分别乘Wq、Wk、Wv即得到了q1-a4、k1-k4、v1-v4：

将k1-k4与q1-q4做内积即得到了每个向量与其他三个向量的相关度，如下图所示，例如第一个向量与其他三个向量的相关度为α1,2、α1,3、α1,4,而α1,1代表和自己的相关度：

将α组成的矩阵记为A，经过softmax处理一下记为A':

v1-v4组成矩阵V，与A'相乘，根据矩阵乘法，V与A'的第一列相乘再相加的结果即为b1，同理可得b2-b4，b1-b4组成的矩阵就是最终的输出了：

3. 总结

阶段1：根据Q和K计算两者的相似性或者相关性
阶段2：对第一阶段的原始分值进行归一化处理
阶段3：根据权重系数A'对V进行加权求和，得到最终的输出

这篇关于李宏毅-注意力机制详解的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/981776。 23002807@qq.com

相关文章

JVM 的类初始化机制

JVM 的类初始化机制

前言当你在 Java 程序中new对象时，有没有考虑过 JVM 是如何把静态的字节码（byte code）转化为运行时对象的呢，这个问题看似简单，但清楚的同学相信也不会太多，这篇文章首先介绍 JVM 类初始化的机制，然后给出几个易出错的实例来分析，帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段，分别是：loading 、Linking、initialization

阅读更多...

Spring Security基于数据库验证流程详解

Spring Security基于数据库验证流程详解

Spring Security 校验流程图相关解释说明（认真看哦） AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证，则会调用 #attemptAuthentica

阅读更多...

OpenHarmony鸿蒙开发（ Beta5.0）无感配网详解

OpenHarmony鸿蒙开发（ Beta5.0）无感配网详解

1、简介无感配网是指在设备联网过程中无需输入热点相关账号信息，即可快速实现设备配网，是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理手机和智能设备之间的信息传递，利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力，实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后，即可发送相关配网数据。同时还支持与常规Sof

阅读更多...

6.1.数据结构-c/c++堆详解下篇（堆排序，TopK问题）

6.1.数据结构-c/c++堆详解下篇（堆排序，TopK问题）

上篇：6.1.数据结构-c/c++模拟实现堆上篇（向下，上调整算法，建堆，增删数据）-CSDN博客本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题目录一.堆排序 1.1 思路 1.2 代码 1.3 简单测试二.TopK问题 2.1 思路(求最小)： 2.2 C语言代码（手写堆） 2.3 C++代码（使用优先级队列 priority_queue）

阅读更多...

Java ArrayList扩容机制（源码解读）

Java ArrayList扩容机制（源码解读）

结论：初始长度为10，若所需长度小于1.5倍原长度，则按照1.5倍扩容。若不够用则按照所需长度扩容。一. 明确类内部重要变量含义 1：数组默认长度 2:这是一个共享的空数组实例，用于明确创建长度为0时的ArrayList ，比如通过 new ArrayList<>(0)，ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

阅读更多...

K8S（Kubernetes）开源的容器编排平台安装步骤详解

K8S（Kubernetes）开源的容器编排平台安装步骤详解

K8S（Kubernetes）是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述：安装步骤：安装Docker：K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。安装Kubernetes Master：在集群中选择一台主机作为Master节点，安装K8S的控制平面组件，如AP

阅读更多...

【编程底层思考】垃圾收集机制，GC算法，垃圾收集器类型概述

【编程底层思考】垃圾收集机制，GC算法，垃圾收集器类型概述

Java的垃圾收集（Garbage Collection，GC）机制是Java语言的一大特色，它负责自动管理内存的回收，释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍：一、垃圾收集机制概述：对象存活判断：垃圾收集器定期检查堆内存中的对象，判断哪些对象是“垃圾”，即不再被任何引用链直接或间接引用的对象。内存回收：将判断为垃圾的对象占用的内存进行回收，以便重新使用。

阅读更多...

【Tools】大模型中的自注意力机制

【Tools】大模型中的自注意力机制

摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样 🎵 方芳《摇太阳》自注意力机制（Self-Attention）是一种在Transformer等大模型中经常使用的注意力机制。该机制通过对输入序列中的每个元素计算与其他元素之间的相似性，

阅读更多...

如何通俗理解注意力机制？

如何通俗理解注意力机制？

1、注意力机制（Attention Mechanism）是机器学习和深度学习中一种模拟人类注意力的方法，用于提高模型在处理大量信息时的效率和效果。通俗地理解，它就像是在一堆信息中找到最重要的部分，把注意力集中在这些关键点上，从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制： 2、寻找重点：想象一下，你在阅读一篇文章的时候，有些段落特别重要，你会特别注意这些段落，反复阅读，而对其他部分

阅读更多...

嵌入式Openharmony系统构建与启动详解

嵌入式Openharmony系统构建与启动详解

大家好，今天主要给大家分享一下，如何构建Openharmony子系统以及系统的启动过程分解。第一：OpenHarmony系统构建首先熟悉一下，构建系统是一种自动化处理工具的集合，通过将源代码文件进行一系列处理，最终生成和用户可以使用的目标文件。这里的目标文件包括静态链接库文件、动态链接库文件、可执行文件、脚本文件、配置文件等。我们在编写hellowor

阅读更多...