Word2Vec进阶 -GPT2

2023-11-08 00:10
文章标签 进阶 word2vec gpt2

本文主要是介绍Word2Vec进阶 -GPT2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Word2Vec进阶 - GPT2 – 潘登同学的NLP笔记

文章目录

    • Word2Vec进阶 - GPT2 -- 潘登同学的NLP笔记
  • GPT2网络结构
    • 预训练任务
      • 机器翻译
      • 自动摘要生成
      • 阅读理解
      • Zero-shot,One-shot,Few-shot
      • 问题来了
  • Bert与GPT2的区别
  • Bert与GPT2的区别

GPT2网络结构

Bert是用了Transformer的Encoder层,而GPT2则是采用了Transformer的Decoder层,最大的模型采用了48层decoder

在这里插入图片描述

预训练任务

机器翻译

进行翻译时,模型不需要Encoder。同样的任务可以通过一个只有Decoder的 transformer 来解决:

自动摘要生成

这是第一个训练只包含解码器的 transformer 的任务。也就是说,该模型被训练来阅读维基百科的文章(没有目录前的开头部分),然后生成摘要。文章实际的开头部分被用作训练数据集的标签,论文使用维基百科的文章对模型进行了训练,训练好的模型能够生成文章的摘要:

阅读理解

给出一段内容,给出question,最后写一个Answer的起始符,将回答作为label

在这里插入图片描述

Zero-shot,One-shot,Few-shot

参考知乎算法攻城狮周俊贤

首先解释下什么是Zero-shot、One-shot、Few-shot,其实就是小样本学习

  • Zero-shot就是现在你要做一个具体任务,如英语转成法语,但是你没有labeled数据来训练模型;
  • One-shot就是你只有一条英语到法语的labeled数据;
  • Few-shot就是有10-1K条的labeled数据

Zero-shot
应用到英语翻译法语任务,首先给一句话描述任务是英翻法,然后给待翻译的英语,最后通过语言模型的方法生成对应的法文,如下图

One-shot
One-shot场景相对于Zero-shot场景多了一条labeled数据,按理来说,多了一条labeled数据,模型的效果应该会更好

这里再把语言模型类比成一个博览群书的人,虽然这个人很厉害,但你给他一些具体任务让他解决时,他还是会蒙蔽,例如我现在叫这个人做一个情感分析的任务,输入"请给下面影评做情感分析,判断正面还是负面:这个电影有点冗长,但是画面还是不错的,属于__"。这个人是蒙的,即使他博览群书,但他不知道评价标准,这句话即有正面的因素,也有负面的因素,究竟是分到正面还是负面好?但这时候,你给任务的时候,顺便给多一个参考案例,输入变成“请给下面影评做情感分析,判断正面正面还是负面:这个电影剧情很差,幸好选的演员把电影撑起来了,属于正面。这个电影有点冗长,但是画面还是不错的,属于__” ,这时候,这个博览群书的人就知道该把这个样本分到正面了。

Few-shot
Few-shot,就是给多几个案例,如下图

问题来了

为什么GPT2能通过只学习语言模型(就是自监督学习),学到这些根本就没有样本的任务呢?GPT2、GPT3论文观点是只要训练语料足够大、足够丰富,模型参数足够多,模型能学习到如最常见的词法、语义、指代消解、角色标注,甚至一些具体的任务,如情感分析、阅读理解、对话、翻译等具体任务,是的,没看错,意思是,即使不做下游任务的fine funing,语言模型在预训练的时候就能学到这些能力。虽然有一些是通过隐式学习到的。

只要语料足够丰富,模型就能可能学习到英语-中文、西班牙语-德文、韩语-日文等等等等的互译技能。

但是你说他的效果怎么样,肯定不能直接应用下游任务,肯定要进行fine-tune…

Bert与GPT2的区别

你说他的效果怎么样,肯定不能直接应用下游任务,肯定要进行fine-tune…

Bert与GPT2的区别

在这里插入图片描述

这篇关于Word2Vec进阶 -GPT2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/366882

相关文章

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Java进阶13讲__第12讲_1/2

多线程、线程池 1.  线程概念 1.1  什么是线程 1.2  线程的好处 2.   创建线程的三种方式 注意事项 2.1  继承Thread类 2.1.1 认识  2.1.2  编码实现  package cn.hdc.oop10.Thread;import org.slf4j.Logger;import org.slf4j.LoggerFactory

[MySQL表的增删改查-进阶]

🌈个人主页:努力学编程’ ⛅个人推荐: c语言从初阶到进阶 JavaEE详解 数据结构 ⚡学好数据结构,刷题刻不容缓:点击一起刷题 🌙心灵鸡汤:总有人要赢,为什么不能是我呢 💻💻💻数据库约束 🔭🔭🔭约束类型 not null: 指示某列不能存储 NULL 值unique: 保证某列的每行必须有唯一的值default: 规定没有给列赋值时的默认值.primary key:

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

Flutter 进阶:绘制加载动画

绘制加载动画:由小圆组成的大圆 1. 定义 LoadingScreen 类2. 实现 _LoadingScreenState 类3. 定义 LoadingPainter 类4. 总结 实现加载动画 我们需要定义两个类:LoadingScreen 和 LoadingPainter。LoadingScreen 负责控制动画的状态,而 LoadingPainter 则负责绘制动画。

从0到1,AI我来了- (7)AI应用-ComfyUI-II(进阶)

上篇comfyUI 入门 ,了解了TA是个啥,这篇,我们通过ComfyUI 及其相关Lora 模型,生成一些更惊艳的图片。这篇主要了解这些内容:         1、哪里获取模型?         2、实践如何画一个美女?         3、附录:               1)相关SD(稳定扩散模型的组成部分)               2)模型放置目录(重要)

java学习,进阶,提升

http://how2j.cn/k/hutool/hutool-brief/1930.html?p=73689

【408DS算法题】039进阶-判断图中路径是否存在

Index 题目分析实现总结 题目 对于给定的图G,设计函数实现判断G中是否含有从start结点到stop结点的路径。 分析实现 对于图的路径的存在性判断,有两种做法:(本文的实现均基于邻接矩阵存储方式的图) 1.图的BFS BFS的思路相对比较直观——从起始结点出发进行层次遍历,遍历过程中遇到结点i就表示存在路径start->i,故只需判断每个结点i是否就是stop

【Python从入门到进阶】64、Pandas如何实现数据的Concat合并

接上篇《63.Pandas如何实现数据的Merge》 上一篇我们学习了Pandas如何实现数据的Merge,本篇我们来继续学习Pandas如何实现数据的Concat合并。 一、引言 在数据处理过程中,经常需要将多个数据集合并为一个统一的数据集,以便进行进一步的分析或建模。这种需求在多种场景下都非常常见,比如合并不同来源的数据集以获取更全面的信息、将时间序列数据按时间顺序拼接起来以观察长期趋势等