【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

本文主要是介绍【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models


ChatGPT 🔥🔥🔥🔥火了
GPT-4 🔥🔥🔥🔥🔥 已于2023年3月15日凌晨发布

作为NLP Researcher

不了解预训练语言模型、prompt-tuning、chain-of-thought

你一定会被OUT!

走向NLP最前沿,你只需阅读下面两篇博客!!!

  • 快速学习预训练语言模型,进入专栏阅读:预训练语言模型

  • 深入学习Prompt-Tuning:点击阅读:Prompt-Tuning——深度解读一种新的微调范式
    Prompting——深度解读一种全新的微调范式



Chain of Thought(CoT)—— a series of intermediate reasoning steps—significantly improves the ability of large language models to perform complex reasoning.

一、介绍

增大模型参数规模对于一些具有挑战的任务(例如算术、常识推理和符号推理)的效果并未证明有效;

Scaling up model size alone has not proved sufficient for achieving high performance on challenging tasks such as arithmetic, commonsense, and symbolic reasoning.

因此我们期望探索如何对大模型进行推理的简单方法:

  • 对于算术类推理任务,期望生成自然语言逻辑依据来指导并生成最终答案;但是获得逻辑依据是比较复杂昂贵的。

It is costly to create a large set of high quality rationales, which is much more complicated than simple input–output pairs used in normal machine learning.

  • 对某个task,为大模型提供一些上下文in-context example作为prompt;简单的示例可能并非能够提升推理能力。

It works poorly on tasks that require reasoning abilities, and often does not improve substantially with increasing language model scale.

  • 本文提出chain of thouth prompting:A chain of thought is a series of intermediate natural language reasoning steps that lead to the final output, and we refer to this approach as chain-of-thought prompting.

在这里插入图片描述


二、Chain-of-Thought

下面给出几个Chain-of-Thought样例:
在这里插入图片描述

传统的方法是,给定几个人工标注的Template,或者少量样本作为In-Context Example来提示大模型生成结果。但是这种方式无法保证生成结果的可靠性。为了进一步提高大模型对于一些较为复杂任务的表现。CoT旨在通过在In-Context Learning的基础上,对每个问题(Question)输出结果(Answer)的同时,提供解答的推理依据(Rationale),这种依据通常是一种推理路径(Reason Path)的形式呈现。通过展示对一个问题的解答,能够很好地激发出模型按照人类思考的模式生成合理的答案

例如在数学计算问题上,只需要人工标注少量的chain-of-thought,即可以得到很惊艳的效果:
在这里插入图片描述
事实证明,Chain-of-Thought对超过1000亿参数量规模的模型所展现的性能提升效果是很明显的。

在这里插入图片描述

更多基于GPT-3的Chain-of-Thought的Benchmark详见:https://github.com/FranxYao/chain-of-thought-hub。


三、Chain of Thought的未来工作:

  • 虽然Chain-of-Thought模拟了人类推理者的思维过程,但这并不能回答神经网络是否真的“推理”,我们将其作为一个悬而未决的问题。
  • 尽管在少样本设置中手动增加具有思想链的样本的成本是最小的,但这样的注释成本对于微调来说可能是令人望而却步的(尽管这可能会被合成数据生成或零样本泛化所克服)。
  • 不能保证正确的推理路径,这可能导致正确和错误的答案; 改进事实语言模型是未来工作的一个开放方向。
  • 仅在大型模型尺度上出现的思维链推理使得在实际应用中服务的成本很高; 进一步的研究可以探索如何在较小的模型中进行推理。

这篇关于【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185325

相关文章

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

专题二_滑动窗口_算法专题详细总结

目录 滑动窗口,引入: 滑动窗口,本质:就是同向双指针; 1.⻓度最⼩的⼦数组(medium) 1.解析:给我们一个数组nums,要我们找出最小子数组的和==target,首先想到的就是暴力解法 1)暴力: 2)优化,滑动窗口: 1.进窗口 2.出窗口 3.更新值 2.⽆重复字符的最⻓⼦串(medium) 1)仍然是暴力解法: 2)优化: 进窗口:hash[s[rig

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

hot100刷题第1-9题,三个专题哈希,双指针,滑动窗口

求满足条件的子数组,一般是前缀和、滑动窗口,经常结合哈希表; 区间操作元素,一般是前缀和、差分数组 数组有序,更大概率会用到二分搜索 目前已经掌握一些基本套路,重零刷起leetcode hot 100, 套路题按套路来,非套路题适当参考gpt解法。 一、梦开始的地方, 两数之和 class Solution:#注意要返回的是数组下标def twoSum(self, nums: Lis

数字电路专题:verilog 阻塞赋值和非阻塞赋值

verilog 阻塞赋值 和 非阻塞赋值 “=”阻塞赋值, ”<=”非阻塞赋值。阻塞赋值为执行完一条赋值语句,再执行下一条,可理解为顺序执行,而且赋值是立即执行; 非阻塞赋值可理解为并行执行,不考虑顺序,在 always 块语句执行完成后,才进行赋值。 如下面的阻塞赋值: //代码如下:module top(din,a,b,c,clk);input din;input clk;out

算法专题一: 双指针

目录 前言1. 移动零(easy)2. 复写零(easy)3. 快乐数(medium)4. 盛水最多的容器(medium)5. 有效三角形的个数(medium)6. 和为 s 的两个数字(easy)7. 三数之和(medium)8. 四数之和(medium) 前言 常见的双指针有两种形式,一种是对撞指针,一种是左右指针。 1. 对撞指针: ⼀般用于顺序结构中,也称左右指针。