T5模型和GPT2模型初步对比

2023-10-18 11:59
文章标签 模型 初步 对比 gpt2 t5

本文主要是介绍T5模型和GPT2模型初步对比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

T5模型和GPT2模型初步对比


之前试着用GPT2模型训练了一个诗词对联生成程序( 训练诗词生成模型)。
这个周末初步试了一下用T5模型做同样的事,是想对比一下看看两个模型的区别。

这两种模型都是基于经典的 Transformer 模型该进来的,都比最初的 Transformer 强大复杂的多。最大的区别是 GPT2 只有解码器,T5 同时有编码器和解码器。理论上T5这种模型比较善于应对给定输入,产生对应的输出的应用:比如翻译,知识问答等。GPT2 比较善于自由创作,比如写一篇短文等。还有一类只有编码器的模型,擅长处理分类问题。但实际上,只要模型够强大,各种NPL问题都能用同一个模型就解决。(比如我在GPT3模型的网站上大致测试了一下它的功能,它在写作、翻译、对话、分类等各种应用中的表现都非常出色。)

T5模型总体上比GPT2模型大不少。我这次测试的是最小型的T5模型,但也比我上次测试的小型GPT2规模大了一倍以上。我用的是与训练GPT2模型大致相同的数据集。训练了个把小时。只对于T5这么庞大的模型来说,可能是有些不够的。所以我也就不做定量分析了,只大致比较一些GPT2和T5预测诗词的效果。

结果和我预想的差不多。T5的对联生成效果稍好于GPT2的效果;但是GPT2的诗词生成效果远好于T5。
T5这种模型非常适合给定上文然后生成相对固定的下文。比如用于中英翻译,上文是“我喜欢打游戏”,下文基本就可以确定为“I like to play video games”,最多用词上时态上稍有变化。这种对应关系是非常明确的。对联的上下联之间也是有比较明确的对应关系的。所以T5处理起来得心应手。GPT2模型生成对联时候,很明显越长的对联,越容易出错。GPT2模型可以明显的感觉到,它在生成新文字时候,更重视附近的单词的影响。这是可以理解的,在一篇文章里,关系越紧密的文字通常距离也越近。但是对于对联中的文字来说,影响最大的却不是附近的字,而是上联中对应位置的哪个字。那个字如果和当前的字间隔了十几个甚至几十个其它的字,GPT2的生成效果就会大受影响。
T5在这方面处理的更好。但是对联和翻译还是不太一样。在翻译任务中,上下文的对应关系十分明确。而一个上联是可以有非常多不同的对应下联的。在这种灵活性上,GPT2反而更有优势。总的来说,普通对联算是个相对简单的问题。T5模型处理的更好,但GPT2也够用了。至于涉及高级技巧的对联,比如拆字联、无情对等等,目前两个模型都还没办法处理好。

诗词生成难度比对联更大。所以总体来说,两个模型产生的效果都还有待提高。相对来说GPT2的结果更顺畅一些。我网页上演示的结果(https://www.qizhen.xyz/)也还是使用的 GPT2 模型。

接续摘录一些生成的结果:

东风吹绿柳,西日映红霞。
人家在何处,月影对芳华。

春风一缕柳丝柔,又见飞花入眼流。
不是东君都解意,只因明月误归舟。

西风吹叶归,秋老金菊黄 。
霜寒衣袖凉,心冷梦魂长 。

长河万里碧,远岫千峰青。山色横江眼,天光上晚星。
朝花香满袖,暮雨露盈庭。回首人生路,孤帆万里行。

红日正当年,欲乘东风追远梦;春光更好处,唯凭彩笔写新篇

其它乱七八糟的结果我就贴在这里了:
http://labview.qizhen.xyz/

这篇关于T5模型和GPT2模型初步对比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/232455

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

锐捷和腾达哪个好? 两个品牌路由器对比分析

《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专

什么是 Ubuntu LTS?Ubuntu LTS和普通版本区别对比

《什么是UbuntuLTS?UbuntuLTS和普通版本区别对比》UbuntuLTS是Ubuntu操作系统的一个特殊版本,旨在提供更长时间的支持和稳定性,与常规的Ubuntu版本相比,LTS版... 如果你正打算安装 Ubuntu 系统,可能会被「LTS 版本」和「普通版本」给搞得一头雾水吧?尤其是对于刚入

TP-LINK/水星和hasivo交换机怎么选? 三款网管交换机系统功能对比

《TP-LINK/水星和hasivo交换机怎么选?三款网管交换机系统功能对比》今天选了三款都是”8+1″的2.5G网管交换机,分别是TP-LINK水星和hasivo交换机,该怎么选呢?这些交换机功... TP-LINK、水星和hasivo这三台交换机都是”8+1″的2.5G网管交换机,我手里的China编程has

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}