摘要

我们提出了 STEP-BACK PROMPTING，这是一种简单的提示技术，可以让LLM进行抽象，从包含具体细节的实例中推导出高层次概念和第一性原理。利用这些概念和原理来引导推理过程，LLM在朝向正确解答路径上显著提升了推理能力。我们在PaLM-2L、GPT-4 和 Llama2-70B 等模型上进行了 STEP-BACK PROMPTING 的实验，并在多个具有挑战性的推理密集型任务中观察到显著性能提升，包括 STEM、知识问答（Knowledge QA）和多跳推理（Multi-Hop Reasoning）。例如，STEP-BACK PROMPTING 将 PaLM-2L 在 MMLU（物理和化学）上的表现分别提升了 7% 和 11%，在 TimeQA 上提升了 27%，在 MuSiQue 上提升了 7%。

1 引言

自然语言处理（NLP）领域正经历一场由基于Transformer（Vaswani 等，2017）的大型语言模型（LLMs）（Devlin 等，2018；Raffel 等，2020；Brown 等，2020；Anil 等，2023）所推动的突破性变革。随着模型规模和预训练语料的不断扩展（Hoffmann 等，2022；Chowdhery 等，2022），模型能力和样本效率得到了显著提升，这得益于 scaling law（Kaplan 等，2020；Hoffmann 等，2022）的研究洞见，以及诸如多步推理（Wei 等，2022b；Zhou 等，2022）和指令遵循（Mishra 等，2022b；Wei 等，2021）等涌现能力（Wei 等，2022a）的出现。

在这里插入图片描述

尽管已经取得了巨大进展，复杂的多步推理对即便是最先进的LLM来说仍然具有挑战性。Lightman 等（2023）表明，采用逐步验证的过程监督是一种有前景的方法，能够提升中间推理步骤的正确性。诸如 Chain-of-Thought（Wei 等，2022b）等技术被提出，用于生成连贯的一系列中间推理步骤，从而提高遵循正确解码路径的成功率。受启发于这样一个事实：在人类面对具有挑战性的任务时，往往会“退一步”进行抽象，以得到指导过程的高层次原理，我们提出了 STEP-BACK PROMPTING，通过将推理建立在抽象之上，来降低在中间推理步骤中出错的可能性。

在这里插入图片描述

在人类的众多认知能力中，抽象（Lachmy 等，2022）是处理大量信息并提炼出一般性原理时不可或缺的能力。例如，Kepler 将数以千计的观测数据浓缩为开普勒的三大行星运动定律，这些定律精确地描述了行星绕太阳运动的轨道（Russell，1964）。在人类面临关键决策时，抽象尤其有帮助，因为它能提供对环境更广阔的视角。

本研究探索了LLM如何通过抽象—推理的两步过程来应对涉及大量细节的复杂任务。第一步是通过in-context learning让LLM学会如何“退一步”——提示它们从具体实例中抽象出高层次的概念和原理。第二步则是利用LLM的推理能力，在这些高层概念和原理的基础上进行推理。我们使用few-shot 示例演示来在LLM中实现 STEP-BACK PROMPTING。

我们在多个涉及特定领域推理的任务上进行了实验，如物理和化学、需要事实性知识的知识密集型问答、多跳常识推理等任务。在 PaLM-2L（Anil 等，2023）上的实验表明，STEP-BACK PROMPTING 在这些复杂任务中带来了显著的性能提升（最高可达27%），而这些任务在以往由于需要处理大量细节而极具挑战性。图1展示了本文中所有关键结果的总结。

其中一些任务难度极高：即使是 PaLM-2L 和 GPT-4，在 TimeQA 和 MuSiQue 上的准确率也仅为约40%。Chain-of-Thought 提示在少数任务上带来轻微提升，而 STEP-BACK PROMPTING 在所有任务上都提升了 PaLM-2L 的性能：MMLU 的物理和化学子任务分别提升了7%和11%，TimeQA 提升了27%，MuSiQue 提升了7%。

我们进行了多种分析，发现 STEP-BACK PROMPTING 相较于 Chain-of-Thought（CoT）提示（Wei 等，2022b）和“take-a-deep-breath”（TDB）提示（Yang 等，2023），最多可带来36%的性能提升。我们还进行了一项定性评估，发现 Step-Back 能修正基础模型的大量错误（最多可达约40%），同时引入的新错误占比较小（最多约12%）。我们还进行了错误分析，发现 STEP-BACK PROMPTING 所犯的多数错误源于LLM在推理能力上的内在局限性，而抽象能力对于LLM来说相对容易掌握，这为类似 STEP-BACK PROMPTING 方法的未来改进指明了方向。

2 STEP-BACK PROMPTING

STEP-BACK PROMPTING 的动机来源于这样一个观察：许多任务包含大量细节，使得LLMs难以检索出相关事实来解决问题。如图2顶部所示的第一个例子中，对于一个物理问题——“如果温度增加2倍、体积增加8倍，理想气体的压强P会发生什么变化？”，LLM在直接进行推理时可能会偏离理想气体定律这一基本原理。同样，“Estella Leopold 在1954年8月至1954年11月之间就读于哪所学校？”这样的问题由于其涉及特定时间范围，也很难被直接解决。在这两种情况下，引导模型思考一个“退一步”的问题有助于更有效地解决原始问题。

我们将step-back question（退一步的问题）定义为：从原始问题中抽象出来的更高层次的问题。例如，与其直接问“Estella Leopold 在特定时期就读哪所学校？”，不如提出一个退一步的问题（如图2底部所示）：“Estella Leopold 的教育经历是什么？”，这是一个涵盖原始问题的高层概念。回答“Estella Leopold 的教育经历”这一退一步的问题，将提供所有推理出“特定时期她在哪所学校就读”所需的信息。其前提是，退一步的问题通常更容易回答。基于这类抽象事实进行推理，可以避免在中间步骤中出现推理错误，例如图2左侧 Chain-of-Thought 示例中出现的错误。

简而言之，STEP-BACK PROMPTING 包含两个简单步骤：

Abstraction（抽象）：不是直接处理原始问题，而是首先提示LLM提出一个关于高层概念或原理的通用性 step-back 问题，并检索与该高层概念或原理相关的事实。每个任务都有独特的 step-back 问题，以检索最相关的事实。
Reasoning（推理）：在获取的高层概念或原理相关事实的基础上，LLM可以围绕原始问题进行推理，我们将其称为基于抽象的推理（Abstraction-grounded Reasoning）。

在接下来的章节中，我们将展示 STEP-BACK PROMPTING 在一系列具有挑战性的任务上的实证研究，这些任务涉及复杂推理，包括 STEM（科学、技术、工程和数学）、知识问答以及多跳推理。

3 实验设置

在本节中，我们定义了所使用的任务和模型，并介绍了评估指标以及对比的基线方法。

3.1 任务

我们在以下多样化任务上进行实验：（a）STEM、（b）知识问答（Knowledge QA）、（c）多跳推理（Multi-Hop Reasoning）。所使用的数据集如下（详见附录 B）：

STEM：我们在 MMLU 和 GSM8K 上评估 STEM 任务的表现。MMLU（Hendrycks et al., 2020）是一个跨多个领域的基准集，用于评估模型的语言理解能力。我们选择其中高中物理和化学部分，因为这些题目需要深度推理。
知识问答（Knowledge QA）：我们使用 TimeQA（Chen et al., 2021），因为其中包含对时间敏感的复杂查询问题。我们也使用 SituatedQA（Zhang & Choi, 2021），该数据集需要模型在给定时间或地理上下文的情况下回答开放检索式问题。
多跳推理（Multi-Hop Reasoning）：我们选用 MuSiQue（Trivedi et al., 2022），这是一个通过组合单跳问题构造的多跳推理数据集；以及 StrategyQA（Geva et al., 2021），它包含需要策略性思考的开放域问题。

3.2 模型

我们使用以下当前最先进的大语言模型（LLMs）：

PaLM-2L（指令微调版本）（Anil et al., 2023）
GPT-4（OpenAI, 2023）
Llama2-70B（Touvron et al., 2023）

3.3 评估

传统的评估指标如准确率（accuracy）、F1分数，在评估最先进的LLMs生成内容时存在局限性，因为这些模型往往生成的是长文本答案，很难直接比较是否一致。因此，我们使用 PaLM-2L 模型进行评估，采用 few-shot prompt 的方式判断模型预测结果与目标答案是否等价。具体的 few-shot 示例、提示语及评估细节可见附录 C。

3.4 基线方法

我们对以下基线方法进行评估：

PaLM-2L / PaLM-2L 1-shot：直接对模型提问，或在提示中加入一个问题-答案的示例（1-shot）。
PaLM-2L + CoT / CoT 1-shot：使用零样本 Chain-of-Thought 提示（CoT）（Kojima et al., 2022），在问题后附加“Let’s think step by step”。1-shot 情况下，在提示中加入一个按 CoT 格式写出的示例问答对（Wei et al., 2022b）。
PaLM-2L + TDB：使用“Take a deep breath and work on this problem step-by-step.”（Yang et al., 2023）作为前缀进行零样本提示。
PaLM-2L + RAG：在第5节和第6节的实验中使用检索增强生成（RAG）方法，将检索到的文本作为上下文提供给LLM。
⚠️ 对于 STEM 任务未使用 RAG，因为这类任务本质上依赖推理而非事实检索。
GPT-4 和 Llama2-70B：我们在所有方法上对 MMLU 数据集使用 GPT-4 和 Llama2-70B。此外，GPT-4 还被用于所有任务的所有基线实验。

所有推理均使用贪婪解码（greedy decoding）进行。

4 STEM

我们在STEM任务（Hendrycks et al., 2020）上评估STEP-BACK PROMPTING，以衡量我们的方法在高度专业化领域推理方面的有效性。我们在下文中解释了在MMLU高中物理与化学部分以及GSM8K基准上应用STEP-BACK PROMPTING的实验设置、结果和分析。

4.1 STEP-BACK PROMPTING

MMLU基准中的问题需要更深层次的推理。此外，它们还要求理解和应用公式，这些公式通常是物理和化学中的原理和概念。在这种情况下，我们首先以概念和第一性原理的形式向模型展示抽象能力，例如牛顿第一运动定律、多普勒效应和吉布斯自由能等。

在这里插入图片描述

这里隐含的后退一步问题是“解决该任务涉及了哪些物理或化学原理和概念？”。我们通过示例演示让模型从自身知识中背诵解决该任务所需的相关原理（具体的少量示例见附录D.1）。

4.2 结果

表1展示了三个模型家族（PaLM-2L、GPT-4和Llama2-70B）在不同设置下的模型表现。报告了5次评估运行的平均准确率及标准差（括号内）。PaLM-2L基线在物理和化学任务上的准确率分别为66.4%和70.9%。我们发现零-shot的Chain-of-Thought（CoT）和Take-a-Deep-Breath（TDB）提示法并未显著提升模型表现，这可能是由于这些任务固有的难度和深度推理需求。PaLM-2L 1-shot及PaLM-2L + CoT 1-shot的表现也未对基线带来明显提升，凸显了向模型演示推理步骤的挑战。相比之下，STEP-BACK PROMPTING显著提升了模型表现，分别比PaLM-2L提升了7%和11%。同样，在GPT-4和Llama2-70B模型上，STEP-BACK PROMPTING在我们测试的所有基线方法中表现极具竞争力，表明STEP-BACK PROMPTING具有模型无关性。GSM8K的结果见附录A.1。

在这里插入图片描述
温馨提示：
阅读全文请访问"AI深语解构" STEP-BACK PROMPTING：退一步：通过抽象在大型语言模型中唤起推理能力