【文末福利送资料】深度探索GPT模型,竟然10个字都不会说?

2024-05-14 16:44

本文主要是介绍【文末福利送资料】深度探索GPT模型,竟然10个字都不会说?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

导读

自回归模型

那么什么时候停下呢?

该停下来,但是概率不让啊

GPT欠缺的两种能力

目录

导读

自回归模型

那么什么时候停下呢?

该停下来,但是概率不让啊

GPT欠缺的两种能力

缺少规划

反省和修订

所有的人工智能模型都这样吗?

福利:


缺少规划

反省和修订

所有的人工智能模型都这样吗?


导读

图片

最近,大家可能都听说了各种风靡互联网的聊天机器人,它们的背后是GPT模型。(GPT(Generative Pre-Trained)是一类模型,但下文中的GPT均由某著名GPT模型友情参演)。作为强大的大语言模型,GPT已经展现出了令人惊叹的实力。写邮件,学英语,帮忙看文献,已然成为了许多人的生活好帮手。作为一个聊天机器人,它在很多任务上已经达到甚至超越了人类的智能水平,这实在是令人非常佩服。但今天我们不是要夸它,而是要展示一个看似很简单的事情,但是GPT却完全无能为力。

图片

其实GPT还是识数的,如果这样问它

图片

咦?“博古通今”的GPT肯定有办法理解“10个字”的意思,但是为什么无法正确输出只有10个字的话呢?小编知道GPT为什么会搞不定这件事呢,这就是本文要解释的事情。

自回归模型

要解释为什么GPT无法胜任这么简单的任务,我们首先需要从GPT的底层原理——自回归模型开始讲起。千万不要被这个看似抽象的词吓到,实际上这个概念非常简单。

自回归模型能做的事情其实和猜单词类似,我们可以以英语课堂上的一个小场景为例。

图片

图片

......在猜错了一些明明概率很高的字母之后,学生终于猜出了第二个字母是’h’。

那下一步呢,下一步就要考虑什么样子的字母或单词接在'ch'后面比较常见,概率比较高。这时候学生就要考虑概率当中的,对于不同的字母表现如何,学生们当然要猜更大的,因为这样更有机会猜对。学生又翻了一通词典,按照出现频率的大小估计概率,再用概率依次猜出了第三个,第四个字母,是chat。

学生的猜谜的例子其实就是自回归模型和GPT工作模式的生动诠释,GPT在工作的时候就像猜词一样,只是把字母换成了token。

token:自然语言处理术语,指处理文本的最小单元,一个token可能是一个字符,一个单词,甚至一小段话。

更一般地说,GPT会依据给定地语境,在可能的不同输出选项中计算概率,并按照这个概率进行输出。也就是按照

的大小进行输出。

确实,在GPT的实际应用中,没有老师来纠正学生的答案。但可以将学生猜词例子中老师的指正视为GPT在训练时使用的数据集进行的训练。在训练过程中,GPT会利用数据集来调整当前输出当前语境 以提高回答的准确性。

我们跟GPT说的提示词,可以类比为老师最开始说的第一个字母‘c’,然后GPT要开始根据这个初始输入来组织和生成输出。它会先猜自己输出的第一段话语,等效于‘h’。然后根据‘ch’这个新的“当前语境”再逐步猜后面的字母/语素。

那么什么时候停下呢?

聪明的小伙伴们可能已经意识到了一个问题,在没有老师指正的情况下,GPT似乎可以无穷无尽地猜下去啊,反正猜了一个再猜下一个,永远没有终止啊。GPT说话虽然经常说一堆车轱辘话,但是最后好歹还是会停下来的。是什么让这个猜谜停下来了呢?

GPT是这样解决这个问题的。工程师们知道,想让GPT把无穷无尽的猜词停下来其实很简单,只需要“扩展”一下语素表,让“停下来”这个操作是一个新的语素就行了。如此一来,GPT在猜词的时候,就会一直猜一直猜,猜到语素“停下来”才停下来。

该停下来,但是概率不让啊

既然已经知道了自回归模型的工作原理,我们就可以回头来看一开始的问题了。在小编的例子里,GPT的“内心”或许经历了这个计算

请说一段话,恰好包含个汉字。生活不止眼前的苟且

GPT是很冷酷无情的,它根本不管你是不是只要10个汉字,也并不是很在乎你的需求,它眼里只有这个概率分布,只想按照这个概率进行抽样

而当GPT说完九个汉字,应该在一个字里结束输出的时候。GPT对概率表进行了搜索,发现在所有输出当中,仅输出一个字的概率太小了(这也意味着这种情况的训练语料太少了),只能不管前面“恰好10个汉字的要求”进行输出了。

GPT欠缺的两种能力

缺少规划

自回归模型每次抽样都是根据当前信息(当前语境),在抽样的过程中对全局缺少规划。 从人类的观点下看,如果有恰好10个字的要求,那就不应该一口气说9个字,应该每说一个字,都得斟酌下看看剩下的字数能不能组成一句完整通顺的话。可自回归模型(GPT)才不管这些,它十分盲目短视地,每次只管当前的

当前输出当前语境

并不很在意总回复的概率

总输出初始语境

是不是足够好。

反省和修订

自回归模型不具有“反省并修订”的能力。 人类基本都会反省吧。说了错话做错事,至少也得心里想着:对不起对不起,不能这么干,我要弥补下。

换到说恰好10个字的任务中,肯定有许多人和小编一样,估计错了10个字的量,一口气说多了。

小编:今天天气很不错,阳光真...

怎么办?已经10个字了?我也要通不过图灵测试了吗!赶紧修改一下,把“很”删掉,就能多出来一个字了。

而GPT那可是金口玉言,说一不二。每一步说出来的话就会被放进新的“当前语境”中。它不会对自己已经抽样了的内容进行删减和修订,在逐次猜出token的过程中,将错就错,一错再错..... 换而言之,GPT虽然能看到自己之前的输出,但是却不具有反省并修订的能力

所有的人工智能模型都这样吗?

并不是所有机器学习模型都有这个缺点,例如围棋战力单位“狗”(AlphaGo),在其蒙特卡罗搜索树算法中,如果搜到了胜率过低的结果,会修订之前的选择。

这也教导我们,要培养良好的规划能力和自我反省和自我改进的能力。不然即使“博览群书”如GPT,也只会像它一样,完成不了说恰好10个字的简单任务呢。

送大家一份2024最新各厂牌教程资源,非常的全面。

福利:

包含:Java、云原生、GO语音、嵌入式、Linux、物联网、AI人工智能、python、C/C++/C#、软件测试、网络安全、Web前端、网页、大数据、Android大模型多线程、JVM、Spring、MySQL、Redis、Dubbo、中间件…等最全厂牌最新视频教程+源码+软件包+面试必考题和答案详解。

福利:想要的资料全都有 ,全免费,没有魔法和套路

关注公众号:资源充电吧


点击小卡片关注下,回复:学习

这篇关于【文末福利送资料】深度探索GPT模型,竟然10个字都不会说?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/989288

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

探索蓝牙协议的奥秘:用ESP32实现高质量蓝牙音频传输

蓝牙(Bluetooth)是一种短距离无线通信技术,广泛应用于各种电子设备之间的数据传输。自1994年由爱立信公司首次提出以来,蓝牙技术已经经历了多个版本的更新和改进。本文将详细介绍蓝牙协议,并通过一个具体的项目——使用ESP32实现蓝牙音频传输,来展示蓝牙协议的实际应用及其优点。 蓝牙协议概述 蓝牙协议栈 蓝牙协议栈是蓝牙技术的核心,定义了蓝牙设备之间如何进行通信。蓝牙协议

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

数控系统资料记录

数控技术:数控系统刀补功能的软件实现及其仿真--数控仿真程序开发实战 https://github.com/mai4567/CNC 下载编译报错:error: src/dxflib.a: 没有那个文件或目录: 解决:下载dxflibhttps://www.ribbonsoft.com/en/dxflib-downloads,下载完后编译,编译后得到libdxflib.a,替换掉项目makefi

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

探索Elastic Search:强大的开源搜索引擎,详解及使用

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选,相信大家多多少少的都听说过它。它可以快速地储存、搜索和分析海量数据。就连维基百科、Stack Overflow、

警告,恶意域名疯狂外联,原因竟然是……

前言    在某个风和日丽的下午,突然收到客户那边运维发过来的消息说我司的DTA设备在疯狂告警,说存在恶意域名外联,我急忙背上小背包前往客户现场,经过与客户协同排查,最终确定该事件为一起挖矿病毒引起的恶意域名外联事件。(因客户信息保密且为了保证文章逻辑完整性,部分截图为后期追加图) 事件分析 一看域名地址donate.v2.xmrig.com

OpenCompass:大模型测评工具

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 大模型应用向开发路径:AI代理工作流大模型应用开发实用开源项目汇总大模型问答项目问答性能评估方法大模型数据侧总结大模型token等基本概念及参数和内存的关系大模型应用开发-华为大模型生态规划从零开始的LLaMA-Factor