论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者对传统CoT方法和本文提出的CoT Prompting的区分。


1. 传统方法的局限性

(1) 基于微调的CoT(Rationale-Augmented Training)
  • 实现方式:需人工标注大量〈输入,推理链,输出〉三元组,然后微调模型
    # 训练数据示例(需人工编写)
    {"input": "小明有5个苹果,吃了2个,还剩几个?","rationale": "初始5个 - 吃掉2个 = 剩余3个",  # 人工撰写成本高"output": "3"
    }
    
  • 限制
    • 标注成本:撰写高质量推理链比单纯标注答案昂贵10-20倍(论文数据)
    • 泛化性差:每个新任务都需要重新微调
(2) 传统Few-Shot Prompting
  • 典型结构(Brown et al., 2020):
    输入: "3个苹果每个2元,总价多少?"  
    输出: "6元"输入: "火车2小时行驶240公里,时速多少?"  
    输出: "120公里/小时"输入: "问题..."  # 测试样本
    
  • 缺陷
    • 仅展示输入-输出对,缺乏推理过程示范
    • 在GSM8K数学题测试中,540B参数模型准确率仅17%(对比CoT Prompting的56%)

2. 本文创新:Chain-of-Thought Prompting

核心突破

通过提示工程而非微调,直接激发模型的推理能力:

输入: "小明有5个苹果,吃了2个,还剩几个?"
思考: 初始5个 - 吃掉2个 = 剩余3个  
输出: "3"输入: "一个书包原价80元打7折,现价多少?"
思考: 80元 × 0.7 = 56元  
输出: "56元"输入: "问题..."  # 测试样本
技术差异
维度传统微调CoT本文CoT Prompting
是否需要训练数据需大量标注三元组仅需3-5个示范样例
模型修改需任务特定微调同一模型参数处理所有任务
推理链来源依赖标注数据模型自动生成
计算成本高(每次任务需微调)零(仅推理)

3. 为什么Prompting版CoT更优?

(1) 数据效率
  • 传统方法:需5000+标注样本才能微调出可用模型(Cobbe et al., 2021)
  • 本文方法:仅需8个示范样例即可达到SOTA(GSM8K上56%准确率)
(2) 涌现能力
  • 参数规模效应:当模型 > 100B参数时,CoT Prompting效果突然提升(见论文中的图2,如下)
    在这里插入图片描述

  • 传统Few-Shot:模型增大后性能提升平缓

(3) 任务泛化
  • 统一框架:同一组提示模板可处理算术/常识/符号推理
  • 传统方法:每类任务需独立微调

4. 案例验证

GSM8K数学题测试

  • 标准Prompting
    输入: "农场有15只鸡和8头牛,共有多少条腿?"  
    输出: "46"  # 错误(未展示计算过程)
    
  • CoT Prompting
    输入: "农场有15只鸡和8头牛,共有多少条腿?"  
    思考: 鸡腿=15×2=30,牛腿=8×4=32,总腿数=30+32=62  
    输出: "62"  # 正确
    

结果:准确率从17% → 56%(540B参数模型)


5. 本质创新点

作者并非发明CoT概念,而是发现了:

  1. 无需微调:通过精心设计的提示模板即可激发模型固有推理能力
  2. 规模效应:超大模型(>100B)在少量示范下能自主生成高质量推理链
  3. 通用接口:〈输入,思考链,输出〉三元组作为跨任务统一范式

这种方法的革命性在于:将推理能力从模型训练阶段解耦,转变为提示工程问题,使单个预训练模型能零样本处理复杂推理任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92479.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92479.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/92479.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Minio 高性能分布式对象存储

1、什么是对象存储? 描述: 对象存储(Object Storage)是一种存储数据的计算机体系结构,它以对象的形式存储和管理数据。与传统的文件系统和块存储不同,对象存储将数据作为对象存储在分布式的存储集群中,每个对象都有一…

[深度学习] 大模型学习4-RAG技术全景解析

在大语言模型基础知识一文中,检索增强生成(Retrieval-Augmented Generation,简称 RAG)技术作为构建大语言模型(Large Language Model,简称 LLM)应用的一种方式已被简要提及,本文将详…

4G/5G无线电单元系统

4G/5G无线电单元系统 ADI公司的核心技术和领域专业知识帮助客户在全球范围内规划、设计、打造更出色的高性能通信系统。 我们的无线电单元(RU)设计平台利用新一代技术来提供高性能解决方案,帮助客户消除设计障碍、缩短产品开发周期,加快产品上市时间。 价…

HarvardX TinyML小笔记1(番外2:神经网络)

1 介绍 图片来自:https://zh.wikipedia.org/zh-cn/%E4%BA%BA%E5%B7%A5%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C 神经网络一直感觉挺神奇的,江湖也说可解释性很差,无论如何还是学学吧。借这次学习哈佛的TinyML,也就顺带弄了。 这里…

计算机网络 第2章通信基础(竟成)

第 2 章 物理层【考纲内容】1.通信基础 (1) 信道、信号、带宽、码元、波特、速率、信源与信宿等基本概念 (2) 奈奎斯特定理与香农定理 (3) 编码与调制 (4) 电路交换、报文交换与分组交换 (5) 数据报与虚电路2.传输介质 (1) 双绞线、同轴电缆、光纤与无线传输介质;(2…

2025-08-09通过授权码的方式给exe程序充值

2025-08-09通过授权码的方式给exe程序充值主要点: 一次性授权机制: 新增 .used_licenses 文件记录所有已使用的授权码 每次激活前检查授权码是否在已使用列表中 激活成功后立即将授权码标记为已使用 时效性验证: 授权码包含过期时间戳&#x…

工具类-高效集合差异计算工具DiffWrapper

集合差异工具类-DiffWrapper 原因 在编辑过程中,肯定会存在对于子表的更新操作,这种更新分为三种: 要加的, 要删的,要更新的,并且传参只有一个modifyVO的, 每一个都写有点过于冗余,故考虑提取一…

SimBA算法实现过程

文章目录添加噪声衡量扰动示例数值总结高级索引变量名代码总体代码添加噪声 操作:将频率扰动通过trans( )转为像素域扰动加到原始图像上(trans返回频率域转换为像素域的结果) expanded (images_batch[remaining_indices] # 原始图像&…

【面试题】cookie和session 的区别

文章目录一、核心定义与存储位置二、关键区别对比三、典型使用场景四、关联与依赖总结在Web开发中, Cookie和 Session是两种常用的状态管理机制,用于在无状态的HTTP协议中保存用户信息(如登录状态、偏好设置等)。二者的核心区别体…

【机器学习】算法调参的两种方式:网格搜索(枚举)、随机搜索

文章目录一、网格搜索:穷举式的最优解寻找1、数学推导过程1. 搜索空间的数学结构2. 优化问题的数学性质3. 收敛性分析4. 误差分析2、为什么网格搜索有效?1. 全局最优性保证2. 可重现性与稳定性3. 参数敏感性分析3、适用场景与局限性二、随机搜索&#xf…

免费PDF翻译 离线自建

https://github.com/Byaidu/PDFMathTranslate/blob/main/docs/README_zh-CN.md https://github.com/Byaidu/PDFMathTranslate/releases 方法 针对不同的使用案例&#xff0c;我们提供不同的方法来使用我们的程序&#xff1a;1. UV 安装 安装 Python (3.10 < 版本 < 3.12)…

DeepSeek智能考试系统智能体

一、deepseek-app-1.0 1、系统要求 CentOS 7.9Python 3.8Node.js 16MySQL 8.0 2、部署步骤 运行初始化脚本&#xff1a;./scripts/setup.sh初始化数据库&#xff1a;mysql -u root -p < scripts/init_db.sql启动服务&#xff1a;./scripts/start.sh 3、访问地址 前端&…

4深度学习Pytorch-神经网络--损失函数(sigmoid、Tanh、ReLU、LReLu、softmax)

目录 激活函数 1. Sigmoid 2. Tanh 函数&#xff08;双曲正切&#xff09; 3. ReLU 函数 4. Leaky ReLU (LReLU) 5. Softmax 总结对比表 损失函数选择 激活函数 激活函数是神经网络中每个神经元&#xff08;节点&#xff09;的核心组成部分。它接收上一层所有输入的加权…

探索Trae:使用Trae CN爬取 Gitbook 电子书

在以前使用过Cursor&#xff0c;但是后期由于试用资源很少&#xff0c;免费资源用完我就卸载掉啦&#xff0c;最近又需要开展相关工作&#xff0c;因此下载了最新版的Trae。Trae 2.0最近很火&#xff0c;我正好想要爬取某一个Gitbook 电子书&#xff0c;因此尝试使用Trae和Pyth…

嵌入式知识日常问题记录及用法总结(一)

文章目录摘要问题一、内核启动流程1.1 ARM内核上电复位与BootROM执行​启动代码&#xff08;Startup Code&#xff09;执行跳转到用户程序1.2 内存管理问题二、C语言基础2.1 常量指针和指针常量区别2.2.函数指针和指针函数区别2.3 关键字Volatile2.4 队列结构体数据摘要 嵌入式…

使用Navicat备份数据库MySQL、PostGreSQL等

Navicat 支持多种数据库系统&#xff0c;可通过手动或自动方式进行数据备份&#xff0c;整个过程还是相对简单且直观&#xff0c;比自己敲命令行方便多了。一、备份步骤1.1、手动备份1、打开Navicat并连接数据库&#xff1a;首先&#xff0c;启动Navicat并连接到您的MySQL数据库…

Web3: 用ERC-1400革新公司股权激励

大家好&#xff01;今天&#xff0c;我们来聊一个非常酷的话PEG话题&#xff1a;如何利用Web3技术&#xff0c;特别是ERC-1400证券型代币标准&#xff0c;来革新传统的公司股权激励模式。 大家是否想过&#xff0c;派发给员工的期权或限制性股票&#xff08;RSU&#xff09;可以…

【Python 高频 API 速学 ④】

一、为什么是这 4 个&#xff1f; 列表&#xff08;list&#xff09;是 Python 最常用的可变序列&#xff0c; 90 % 的操作可以浓缩成 「增、并、删、排」 四个字&#xff0c; 而这四个字正好对应 append / extend / pop / sort。二、四剑客一览方法作用原地&#xff1f;返回值…

K8S的POD数量限制

#k8s-v1.11.11.查询当前节点的最大pod数kubectl describe nodes | grep pods2.编辑配置文件把单台的pod数量调到150个vim /etc/systemd/system/kubelet.service #添加最大数量--maxPods: 1503.加载配置重启服务systemctl daemon-reload systemctl restart kubelet#k8s-v1.21.41…

OpenAI开源大模型 GPT-OSS 开放权重语言模型解析:技术特性、部署应用及产业影响

注&#xff1a;此文章内容均节选自充电了么创始人&#xff0c;CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》&#xff08;跟我一起学人工智能&#xff09;【陈敬雷编著】【清华大学出版社】 清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷…