ChatGPT魔法背后的原理:如何做到词语接龙式输出?

2024-06-15 15:12

本文主要是介绍ChatGPT魔法背后的原理:如何做到词语接龙式输出?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

介绍

我们都知道 ChatGPT 是 AIGC 工具,其实就是生成式人工智能。大家有没有想过这些问题 🤔️:

1、我们输入一段话,就可以看见它*噼里啪啦的一顿输出*,那么它的原理到底是什么?

2、到底它是怎么锁定这些文字,然后把相应的答案输出给我们的?

当我第一次面对这些问题时,我最开始并没有多想,就觉得它很牛就对了 🐮!

图片

带着这些疑问,我们一起开始今天的分享。

原理

在分享之前,我就了解到最开始学习提示词的那一波人真的太辛苦了,资料很稀缺,不像今天一抓一大把,我和一位提示词大佬沟通过,了解到,他们最开始都是从学习原理和概念开始,一句一句提问,一点一滴地探索,时常带着疑问思考它是怎么做到。

其实这也是最好的途径,这样有助于我们了解原理,而不会在遇到各色各样的问题时手足无措。也可以在后期,帮助我们去理解,去编写更加结构化的提示词,来应对复杂的任务

图片

通过这次学习,我们基本上可以了解到以下几点:

  • ChatGPT 是怎么理解我们输入内容的含义的?
  • ChatGPT 回答的时候,它是怎么做到词语接龙式的涌现?

我这边通过观看视频和资料,总结并通俗化的理解了一下,希望对大家有所帮助:

首先,计算机如何可以理解我们提供文字的意思?是需要经历两步。第一步叫做向量化,第二步叫做信息压缩与特征提取

向量化是什么? 看起来有点蒙圈,其实向量化就是将文字、图像或其他数据类型转化为数值形式的一种方法,通常是转化为一串数字,即向量。这个向量可以代表数据的某种特性或信息。

在这里插入图片描述

如例:你有一个水果清单:苹果,香蕉和橙子。要让计算机理解这些水果,你可以给每种水果分配一个数字。例如,苹果是[1,0,0],香蕉是[0,1,0],橙子是[0,0,1]。这样,当你告诉计算机“苹果”,它会知道你是指**[1,0,0]**这个向量。这就是一种简单的向量化。

另外苹果是大的,小的,还是熟的,烂的,这些描述形状,成熟度各个维度的特征词,都会影响向量的长度和不同。说白了,维度越多,转化的向量对与这个事物表述的准确性越高。

为什么要向量化呢? 向量化的目的不仅为了电脑方便识别(数字更容易识别)。另外,向量化通过机器的不断的试错再试错地训练(术语叫 “信息压缩与特征提取”), 这样它可以结合大量的语料库将不同的词语放在巨大向量空间中合适的坐标上,特征越相似,坐标的距离越近。

那是怎么不断试错的呢? 这样说,现在我们要训练 10000 个字的数据集(书籍、新闻等等数据集),那如何让这个 10000 个字放在合适的坐标中呢,那就是结合每个词与词进行向量的计算,术语叫损失函数,来判断这个词是否比较合适的放在一起。这样不断计算,不断试错,和不断纠正,最终 10000 个字就放在了合适的位置。

有案例吗? 有,比如“苹”和“果”, 按照常识应该是放在一起的,那是因为结合了这个 10000 个数据集进行计算,"苹"和"果"经常出现在一起,所以他们应该放在一起。而"苹"和 “名” 在这个数据集中几乎不存在靠近的机会,所以不适合在向量空间中存在相近的位置。其实,这个巨大的向量空间中,我们也看到了现实生活中的一些规律,俗话说 “物以类聚,人以群分”,这句话则是对这个规则的一种很好的诠释。

在这里插入图片描述

换个例子,因为我们都是追逐时代潮流,想要学习 AI 来赋能工作、自媒体、等等赛道的弄潮儿,所以你们在看我的文章!从某个角度,我们在大千世界的向量空间中,因为学习 AI 这个共同目标出发,基于这个维度,我们的坐标值是比较接近的。

现在词都在正确的位置了,那怎么词语接龙呢?这时候就需要请出 Google TransFormer“自注意力机制”,它是现在通用大模型的鼻祖,这边不过多解释,感兴趣的朋友可以了解下。回到正题,到底怎么词语接龙,举个例子,前半句的提问是**“苹果的创始人是乔布斯,那么苹果指的是?”** ,现在答案有两种,一种是**“美国科技巨头公司”。另外一种是“水果”**。

到底是哪种?这时,机器提取句子里的关键词 “苹果”、“创始人”、“乔布斯”后,先在整个向量空间中进行分析拿到可能相近的两个结果“苹果”、“美国科技巨头公司”与可能的结果进行向量相乘并再次训练,得出哪个答案的权重更高,通过不断试错,最终答案就得出了“美国科技巨头公司”

在这里插入图片描述

所以到底什么是词语接龙式涌现的原因呢? 总结一句话,就是结合已经出现的字,把接下来可能的答案不断进行计算、训练、试错和自我纠正,得出概率最高的那个词后,再次拼起来后,按照同样的方式再继续寻找下一次词。

另外,在学习过程中有一句话让我影响很深刻,ChatGPT 本身就是一个基于 Transformer 为基础的语言模型,被制作出来,并不是为了解决实际问题,而是为了把话说漂亮,而怎么把话说漂亮,就是基于它看了多少本书了。

我们都知道 GPT3.5 看了 1750 亿数据量 的书籍,所以用 GPT3.5 时,细心的小伙伴会发现,有些场景虽然说的很有道理,但实际结果是不对的。但是用 GPT4.0 的时候,发现说的又对了,那是因为 GPT4.0 是 1.8 万亿 的数据量。所以大家知道为啥有时候 GPT4.0 的回答更实用了吧?那是因为他们脑袋瓜子不一样。

图片

我平时经常分享 AI 资讯时,看到未来 GPT5 的数据集将会是 GPT4.0 的 100 倍,真的不敢想象到底它的天花板在哪里!!!学会 ChatGPT,已经势在必行。

总结

最后,我想说一句话也算是自我勉励,“学习新知识,系统学习的方式才是正确法则,如何系统学习,了解基础是第一步,切记不要浮躁”。

小小分享,希望借助自己微不足道的力量帮助到大家,也欢迎大家和我一起共同探讨和交流!💪

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

这篇关于ChatGPT魔法背后的原理:如何做到词语接龙式输出?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1063811

相关文章

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

MySQL中的MVCC底层原理解读

《MySQL中的MVCC底层原理解读》本文详细介绍了MySQL中的多版本并发控制(MVCC)机制,包括版本链、ReadView以及在不同事务隔离级别下MVCC的工作原理,通过一个具体的示例演示了在可重... 目录简介ReadView版本链演示过程总结简介MVCC(Multi-Version Concurr

使用TomCat,service输出台出现乱码的解决

《使用TomCat,service输出台出现乱码的解决》本文介绍了解决Tomcat服务输出台中文乱码问题的两种方法,第一种方法是修改`logging.properties`文件中的`prefix`和`... 目录使用TomCat,service输出台出现乱码问题1解决方案问题2解决方案总结使用TomCat,

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

C++中实现调试日志输出

《C++中实现调试日志输出》在C++编程中,调试日志对于定位问题和优化代码至关重要,本文将介绍几种常用的调试日志输出方法,并教你如何在日志中添加时间戳,希望对大家有所帮助... 目录1. 使用 #ifdef _DEBUG 宏2. 加入时间戳:精确到毫秒3.Windows 和 MFC 中的调试日志方法MFC

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20