Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

摘要

本文探索了思维链(chain of thought),即一系列中间推理过程,可以有效地增强大语言模型的复杂推理能力。

在三个大型语言模型上的实验表明,思维链提示提高了一系列算术、常识和符号推理任务的性能。

在这里插入图片描述

引言

这项工作探讨了如何通过一个简单的方法来解锁大型语言模型的推理能力,这个方法由两个想法驱动:首先,算术推理技术可以从生成导致最终答案的自然语言基本原理中受益。其次,大型语言模型提供了令人兴奋的前景,即通过提示在上下文中进行少量的学习。

困难:

  • 对于基本原理增强训练和微调方法,创建大量高质量的基本原理集是昂贵的,这比普通机器学习中使用的简单输入输出对要复杂得多
  • 对于传统的几次提示方法,它在需要推理能力的任务上表现不佳,并且通常不会随着语言模型规模的增加而得到实质性的改善

在本文中,作者以一种避免其局限性的方式结合了这两种理念的优势。具体来说,我们探索了语言模型在给定由三元组组成的提示符的情况下为推理任务执行少量提示的能力:<输入,思维链,输出>。思维链是一系列导致最终输出的中间自然语言推理步骤,我们将这种方法称为思维链提示

思维链

赋予语言模型产生类似思维链的能力,即一系列连贯的中间推理步骤,并推导出问题的最终答案。思维链提示作为一种促进语言模型推理的方法有几个吸引人的特性:

  • 首先,思维链原则上允许模型将多步骤问题分解为中间步骤,这意味着可以将额外的计算分配给需要更多推理步骤的问题
  • 其次,思想链为模型的行为提供了一个可解释的窗口,提示它是如何得出特定答案的,并提供了调试推理路径出错的机会(尽管完全描述支持答案的模型计算仍然是一个开放的问题)
  • 第三,思维链推理可以用于数学单词问题、常识推理和符号操作等任务,并且可能(至少在原则上)适用于人类可以通过语言解决的任何任务
  • 最后,思维链推理可以很容易地在足够大的现成语言模型中引出,只需将思维链序列的示例包含到少数提示的示例中

计算推理

我们首先考虑图1中形式的数学单词问题,它衡量语言模型的算术推理能力。虽然对人类来说很简单,但算术推理是语言模型经常难以完成的任务。引人注目的是,当与540B540B540B参数语言模型一起使用时,思维链提示在一些任务上的表现与特定于任务的微调模型相当,甚至在具有挑战性的任务上达到了新的技术水平GSM8KGSM8KGSM8K基准

实验步骤

在多个基准测试中探索各种语言模型的思维链提示

基准:我们考虑以下五个数学单词问题基准:

  • 数学单词问题的GSM8KGSM8KGSM8K基准
  • 具有不同结构的数学单词问题的SVAMPSVAMPSVAMP数据集
  • 各种数学单词问题的ASDivASDivASDiv数据集
  • 代数字题的AQuAAQuAAQuA数据集
  • MAWPSMAWPSMAWPS基准

标准提示:对于基线,我们考虑标准的几次提示,其中语言模型在输出测试时间示例的预测之前给出输入输出对的上下文示例

思维链提示:我们建议的方法是在几次提示中增加每个示例,并使用相关答案的思维链,如图1(右)所示。由于大多数数据集只有一个评估分割,我们手动组成了一组8个带有思维链的小样本——图1(右)显示了一个思维链样本

语言模型:五个语言模型:

  • GPT-3
  • LaMDA
  • PaLM
  • UL2 20B
  • Codex

在这里插入图片描述

结果

在这里插入图片描述

消融实验

观察到使用思维链提示的好处后,自然会提出一个问题,即是否可以通过其他类型的提示来获得同样的性能改进。图5显示了一项消融研究,其中包含如下所述的三种思维链变化:

  • 仅限方程:思维链提示可能有帮助的一个原因是,它产生了要评估的数学方程,因此我们测试了一个变量,其中模型在给出答案之前被提示只输出一个数学方程

在这里插入图片描述

  • 仅限变量计算:另一种直觉是,思维链允许模型在更难的问题上花费更多的计算(即中间令牌)。为了将变量计算的影响与思维链推理隔离开来,我们测试了一个配置,其中提示模型只输出与解决问题所需的方程中的字符数相等的点(…)

  • 回答后的思维链:思维链提示的另一个潜在好处是,这样的提示可以让模型更好地访问在预训练期间获得的相关知识。因此,我们测试了另一种配置,其中思想链提示仅在答案之后给出,从而隔离模型是否实际上依赖于生成的思想链来给出最终答案

思维链的鲁棒性

对样本的敏感性是提示方法的关键考虑因素,例如,改变少量样本的排列可能会导致GPT-3的准确性SST-2的范围从接近偶然(54.3%)到接近最新技术(93.4%)

在这里插入图片描述

常识推理

虽然思维链特别适用于数学单词问题,但思维链基于语言的性质实际上使其适用于广泛的常识推理问题,这些问题涉及在一般背景知识的假设下对物理和人类互动进行推理。常识推理是与世界互动的关键,目前的自然语言理解系统仍然无法做到

基准:CSQA、StrategyQA、Date、Sports、SayCan

提示:遵循与前一节相同的实验设置

结果: 图7突出显示了PaLM的这些结果(LaMDA、GPT-3和不同模型尺度的完整结果见表4)。

在这里插入图片描述

符号推理

我们最后的实验评估考虑了符号推理,这对人类来说很简单,但对语言模型来说可能具有挑战性。我们表明,思维链提示不仅使语言模型能够执行在标准提示设置中具有挑战性的符号推理任务,而且还有助于长度泛化到比在少数示例中看到的更长的推理时间输入

Task

  • Last letter concatenation。这个任务要求模型将名字中单词的最后一个字母连接起来(例如:“Amy Brown”→\rightarrow“yn”)
  • Coin flip。这个任务要求模型回答在人们抛硬币或不抛硬币后,硬币是否仍然是正面朝上的(例如,“硬币是正面朝上的。Phoebe抛硬币。Osvaldo不会抛硬币。硬币还是正面朝上吗?”→\rightarrow“不”)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91543.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91543.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/91543.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为核心交换机S7700的内存OID

华为S7700系列交换机 SNMP内存相关OID说明 以下列出了华为S7700核心交换机在SNMP v2c下可用的内存相关OID,包括CPU内存利用率、物理内存总量、已用内存和空闲内存,并给出每个OID的功能描述、数据类型、单位、使用说明等信息。 1. CPU内存利用率(处理器内存占用百分比) OID名…

中州养老Day02:服务管理护理计划模块

本日任务:服务管理的后端开发 1.学习:护理项目 (1)评估开发工期的思路和注意事项 全面熟悉项目,了解项目重点,设置开发优先级 比如,在下面图片的接口文档中版本有1.0,2.0,3.0也就是功能的初代,二代,三代,所以我们在大致浏览所有功能后,要优先关注初代功能的实现 开发计划 …

JavaScript:Ajax(异步通信技术)

一、Ajax 核心概念Ajax&#xff08;Asynchronous JavaScript and XML&#xff09;是一种异步通信技术&#xff0c;核心特点&#xff1a;无刷新更新&#xff1a;无需重新加载整个页面异步处理&#xff1a;后台发送/接收数据不阻塞用户数据格式&#xff1a;支持 XML/JSON/HTML/纯…

leetcode 118. 杨辉三角 简单

给定一个非负整数 numRows&#xff0c;生成「杨辉三角」的前 numRows 行。在「杨辉三角」中&#xff0c;每个数是它左上方和右上方的数的和。示例 1:输入: numRows 5 输出: [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]]示例 2:输入: numRows 1 输出: [[1]]提示:1 < numRows…

jmeter--While控制器--循环直到接口响应符合条件

场景描述业务场景&#xff1a;单据计算接口情况&#xff1a;单据计算&#xff0c;调用接口1发起计算&#xff0c;接口2查询计算执行结果jmeter脚本&#xff1a;把接口1和接口2&#xff08;接口2循环调用&#xff0c;直到返回执行完成状态&#xff09;添加到一个事务&#xff0c…

组播 | 不同 VLAN 间数据转发实现逻辑 / 实验

注&#xff1a;本文为 “不同 vlan 间组播数据转发” 相关合辑。 图片清晰度受引文原图所限。 略作重排&#xff0c;如有内容异常&#xff0c;请看原文。 组播 VLAN&#xff1a;解决路由器为不同 VLAN 用户复制多份流量问题 aiaiai010101 于 2018-11-16 22:42:06 发布 一、组…

渗透测试常用指令

互联网设备的开放信息查询网站&#xff1a; https://fofa.info/ https://www.zoomeye.org/ https://quake.360.net/quake/#/index https://x.threatbook.com/v5/mapping https://hunter.qianxin.com/ 目录 一、网络探测与扫描 traceroute whatweb ping fping nc n…

51单片机串行通信的设计原理有哪些?

51单片机是指由美国INTEL公司生产的一系列单片机的总称&#xff0c;这一系列单片机包括了许多品种&#xff0c;如8031&#xff0c;8051&#xff0c;8751&#xff0c;8032&#xff0c;8052&#xff0c;8752等&#xff0c;其中8051是最早最典型的产品&#xff0c;该系列其它单片机…

设计模式十四:适配器模式(Adapter Pattern)

适配器模式&#xff08;Adapter Pattern&#xff09;是一种结构型设计模式&#xff0c;用于将一个类的接口转换成客户端期望的另一个接口&#xff0c;使原本不兼容的类可以一起工作。适配器模式的类型类适配器&#xff08;通过多重继承实现&#xff09;对象适配器&#xff08;通…

力扣经典算法篇-38-组合(回溯算法)

1、题干 给定两个整数 n 和 k&#xff0c;返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1&#xff1a; 输入&#xff1a;n 4, k 2 输出&#xff1a; [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4], ] 示例 2&#xff1a; 输入&#xff1a;…

多人命题系统

目 录 摘 要 Abstract 1 系统概述 1.1 概述 1.2课题意义 1.3 主要内容 2 系统开发环境 2. 1 JAVA简介 2. .2 B/S架构 2.3 SSM三大框架 2.4访问数据库实现方法 2.5 系统对MySQL数据库的两种连接方式 3 需求分析 3.1技术可行性&#xff1a;技术背景…

UDP_千兆光通信(四)Tri Mode Ethernet MAC ip核

Tri Mode Ethernet MAC ip核使用与例程分析 一、 Tri Mode Ethernet MAC ip核功能 二、 Tri Mode Ethernet MAC ip核配置 数据传输速率 主要设置接口 帧滤波功能选择,以及流控选择 三、 Tri Mode Ethernet MAC ip核使用 3.1 ip核接口 3.2 ip核接口说明 3.2.1 tx_ifg_delay 3.2…

Linux网络:多路转接 epoll

Linux网络&#xff1a;多路转接 epoll一、epoll三个接口函数1、epoll_create2、epoll_ctl3、epoll_wait二、epoll的工作原理三、epoll的echo_server1、EpollServer类2、构造函数3、事件循环4、事件派发5、事件处理6、测试四、LT和ET模式1、LT2、ET五、项目代码一、epoll三个接口…

uniapp 微信小程序 列表点击分享 不同的信息

<button open-type"share" plain class"item share" click.stop"shareFn(item)"><text>分享</text> </button>import {onShareAppMessage} from dcloudio/uni-applet shareObj ref({})// 将点击后的分享设置信息 关键…

C# 匿名方法详解

C# 匿名方法详解 引言 在C#编程语言中,匿名方法是使用Lambda表达式创建的没有名称的方法。它们在LINQ查询、事件处理和其他场合中非常有用。本文将详细介绍C#匿名方法的基本概念、语法、使用场景以及优势。 匿名方法的概念 匿名方法是一种无需显式定义名称的方法。在C#中,…

SD卡简介与驱动开发

基本概念 存储卡有很多种类&#xff0c;CF卡、记忆棒、SD卡、XD卡、MMC卡、MS卡、TF卡、MicroSD卡等。平时最常见的有SD卡和MicroSD卡两种&#xff0c; SD卡和MicroSD只是两张卡的大小不同&#xff0c;规格版本是完全相同的&#xff0c;均由SD卡协会推出。 SD卡有不少规范&…

大数据平台数仓数湖hive之拉链表高效实现

对于缓慢变化的维度表&#xff0c;如客户表&#xff0c;员工表&#xff0c;为了不丢失历史数据&#xff0c;又不至于太浪费存储空间&#xff0c;我们采用拉链表实现。 实现过程如下&#xff1a; 1、采集初始数据&#xff1a; 1.1 从mysql导出数据到hdfs /data/dolphinschedu…

【VSCode】常用插件推荐(持续更新~)

以下的这些插件都有使用过&#xff0c;可取对自己编码有用的选择安装。&#x1f9e0; 智能补全 / 提示类插件 1. Auto Import在编码时选择有对应导入包的选项&#xff0c;自动为 JS/TS 文件中的使用项补全并添加 import 声明&#xff0c;极大提高开发效率。2. Iconify IntelliS…

ICML 2025 | 深度剖析时序 Transformer:为何有效,瓶颈何在?

本文介绍帝国理工学院等机构在 ICML 2025 发表的最新研究成果。该研究并未提出新模型&#xff0c;而是对现有时间序列 Transformer 模型进行了一次深刻的拷问——为何结构更简单的 Transformer&#xff08; PatchTST, iTransformer&#xff09;在各大基准测试中&#xff0c;反而…

AIBOX内置5G天线设计

AIBOX内置5G天线设计AIBOX的天线种类天线种类及数量&#xff1a;运营商5G天线*4&#xff0c;1.4G天线*2、wifi天线*1天线形式&#xff1a;内置PCB天线。天线安装方式&#xff1a;卡扣固定&#xff0c;安装至设备外壳内壁。RG-178同轴线或UFL1.37mm同轴线连接至主板&#xff0c;…