注意力机制(Attention mechanism)(中篇)

2024-09-02 15:04

本文主要是介绍注意力机制(Attention mechanism)(中篇),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

模型的输入是一组向量,它可以是文字,可以是语音,可以是图。而输出有三种可能性, 第一种可能性是每一个向量都有一个对应的标签。如图1所示,当模型看到输入是4个向 量的时候,它就要输出4个标签。如果是回归问题,每个标签是一个数值。如果是分类问题, 每个标签是一个类别。但是在类型1的问题里面,输入跟输出的长度是一样的。模型不需要 去烦恼要输出多少的标签,输出多少的标量。反正输入是4个向量,输出就是4个标量。这 是第一种类型。

图1 输入与输出数量相同

什么样的应用会用到第一种类型的输出呢?举个例子,如图2所示,在文字处理上,假 设我们要做的是词性标注(Part-Of-Speech tagging,POS tagging)。机器会自动决定每 一个词汇的词性,判断该词是名词还是动词还是形容词等等。这个任务并不是很容易,举个 例子,现在有一个句子:Isawasaw,这句话的意思是我看到一个锯子,第二个saw是名词 锯子。所以机器要知道,第一个saw是个动词,第二个saw是名词,每一个输入的词汇都要有一个对应的输出的词性。这个任务就是输入跟输出的长度是一样的情况,属于第一个类型 的输出。如果是语音,一段声音信号里面有一串向量。每一个向量都要决定它是哪一个音标。 这不是真正的语音识别,这是一个语音识别的简化版。如果是社交网络,给定一个社交网络, 模型要决定每一个节点有什么样的特性,比如某个人会不会买某个商品,这样我们才知道要 不要推荐某个商品给他。以上就是举输入跟输出数量一样的例子,这是第一种可能的输出。

图2 类型1应用的例子

对于输入是一个序列,输出是一个标签而言,如图3所示

图3 输入是一个序列,输出是一个标签

举例而言,如图4 所示,输入是文字,比如情感分析。情感分析就是给机器看一段话, 模型要决定说这段话是积极的(positive)还是消极的(negative)。情感分析很有应用价值,假 设公司开发的一个产品上线了,想要知道网友的评价,但又不可能一则一则地分析网友的留 言。而使用情感分析就可以让机器自动去判别当一则贴文里面提到某个产品的时候,它是积 极的还是消极的,这样就可以知道产品在网友心中的评价。给定一整个句子,只需要一个标签 (积极的或消极的)。如果是语音,机器听一段声音,再决定是谁讲的这个声音。如果是图,比 如给定一个分子,预测该分子的亲水性。

图4

我们不知道应该输出多少个标签,机器要自己决定输出多少个 标签。如图6.10所示,输入是N 个向量,输出可能是N′个标签。N′是机器自己决定的。这 种任务又叫做序列到序列的任务。翻译就是序列到序列的任务,因为输入输出是不同的语言, 它们的词汇的数量本来就不会一样多。真正的语音识别输入一句话,输出一段文字,其实也是 一个序列到序列的任务。

图5 序列到序列任务

这篇关于注意力机制(Attention mechanism)(中篇)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130287

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

【Tools】大模型中的自注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 自注意力机制(Self-Attention)是一种在Transformer等大模型中经常使用的注意力机制。该机制通过对输入序列中的每个元素计算与其他元素之间的相似性,

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

如何通俗理解注意力机制?

1、注意力机制(Attention Mechanism)是机器学习和深度学习中一种模拟人类注意力的方法,用于提高模型在处理大量信息时的效率和效果。通俗地理解,它就像是在一堆信息中找到最重要的部分,把注意力集中在这些关键点上,从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制: 2、寻找重点:想象一下,你在阅读一篇文章的时候,有些段落特别重要,你会特别注意这些段落,反复阅读,而对其他部分

【Tools】大模型中的注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 在大模型中,注意力机制是一种重要的技术,它被广泛应用于自然语言处理领域,特别是在机器翻译和语言模型中。 注意力机制的基本思想是通过计算输入序列中各个位置的权重,以确

FreeRTOS内部机制学习03(事件组内部机制)

文章目录 事件组使用的场景事件组的核心以及Set事件API做的事情事件组的特殊之处事件组为什么不关闭中断xEventGroupSetBitsFromISR内部是怎么做的? 事件组使用的场景 学校组织秋游,组长在等待: 张三:我到了 李四:我到了 王五:我到了 组长说:好,大家都到齐了,出发! 秋游回来第二天就要提交一篇心得报告,组长在焦急等待:张三、李四、王五谁先写好就交谁的

UVM:callback机制的意义和用法

1. 作用         Callback机制在UVM验证平台,最大用处就是为了提高验证平台的可重用性。在不创建复杂的OOP层次结构前提下,针对组件中的某些行为,在其之前后之后,内置一些函数,增加或者修改UVM组件的操作,增加新的功能,从而实现一个环境多个用例。此外还可以通过Callback机制构建异常的测试用例。 2. 使用步骤         (1)在UVM组件中内嵌callback函

Smarty模板引擎工作机制(一)

深入浅出Smarty模板引擎工作机制,我们将对比使用smarty模板引擎和没使用smarty模板引擎的两种开发方式的区别,并动手开发一个自己的模板引擎,以便加深对smarty模板引擎工作机制的理解。 在没有使用Smarty模板引擎的情况下,我们都是将PHP程序和网页模板合在一起编辑的,好比下面的源代码: <?php$title="深处浅出之Smarty模板引擎工作机制";$content=