论文标题

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

论文地址

https://arxiv.org/pdf/2506.14852

作者背景

斯坦福大学

动机

大模型能力的飞速进步催收了大量 AI 智能体应用,它们协调多种模型、工具、工作流来解决实际复杂任务。然而在实际应用中,Agent 系统需要反复地调用 LLM,由此产生了显著的成本,如何降低整个流程中的 token 开销是各智能体应用亟待解决的问题

对于常见的 ReAct 架构,规划器通常需要反复阅读冗长的上下文,是整个 Agent 系统中的资源大户,并且它还是系统的核心模块,承担着任务划分、工具理解、信息整合等多项复杂任务,所以在实践中往往需要更贵更强力的大模型(如 GPT 4+)才可胜任,这进一步加剧了项目成本

在这里插入图片描述

缓存是减少 LLM 应用服务成本的最常用技术之一,然而尽管规划器经常需要处理相似的查询,但查询条件的细微差异与动态改变的环境使我们无法通过缓存直接复用之前的规划结果,对此作者提出了一种缓存抽象思维的新方法,为规划器提供问题的解决思路,从而降低规划难度,进而使用更便宜的轻量模型代替部分昂贵的强模型调用

本文方法

本文所设计的 Agent 框架如下图所示,它维护了一个专用于规划器的思维模板库。当问题匹配到思维模板的关键词时,便将事先整理好的规划思路放入上下文,然后去调用一个本地部署的轻量 LLM 来生成任务计划;如果当前 query 匹配不上思维模板,则像原始流程一样利用强模型生成任务计划并执行;当任务执行成功后,还会对本次执行日志进行分析,从中提取出关键步骤并移除具体细节信息,得到抽象的思维模板以供未来使用

在这里插入图片描述

值得注意的是,作者最终采用了基于关键词的严格匹配而非基于语义的相似度匹配来召回模板,这是因为后者可能过度强调特定的上下文细节(例如个人或公司的名称),而非泛化的查询意图,可能会导致较高的假阳与假阴性率;而基于规则的匹配方法更加可靠,并且成本更低速度更快

在这里插入图片描述

缓存抽象的思维模板还带来了一项好处:增强上下文更精简。作者后续也尝试了缓存细节执行过程日志的策略,但当前的轻量 LLM(如 LLaMa-3.2-8B)面对长上下下文时效果会变差

实验结果

作者在涵盖长文本的金融数据 FinanceBench 和表格数学应用题 Tabular Math Word Problems 上进行测试,使用 GPT-4o 作为强模型,本地部署的 LLaMa-3.2-8B 作为轻量模型,然后对比上述架构带来的成本节省与性能变化,实验组设置如下:

  • Accuracy Optimal: 不使用缓存, 所有任务使用强模型来解决;
  • Cost Optimal: 所有任务使用轻量模型解决;
  • Full History Caching: 缓存完整的历史执行日志;
  • Semantic Caching: 使用语义相似度来匹配思维模板;
  • Agentic Plan Caching: 使用关键词来匹配思维模板

在这里插入图片描述

可见本文提出的架构设计让系统的 token 成本减半,并且维持了 96.67% 的准确率

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910450.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910450.shtml
英文地址,请注明出处:http://en.pswp.cn/news/910450.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue 3 + Axios 完整入门实战指南

从入门到深入,手把手教你在 Vue 3 中正确使用 Axios,支持全局挂载、局部分离、使用 proxy 连接场景,适合所有前端小白和实战设计。 大家好,我是石小石!一个热爱技术分享的开源社区贡献者,小册《油猴脚本实战…

CppCon 2017 学习:Effective Qt: 2017 Edition

这段内容讲的是 Qt 容器(Qt Containers)和标准库容器(STL Containers)之间的选择和背景: 主要观点: Qt 容器的历史背景 Qt 自身带有一套容器类(如 QList, QVector, QMap 等)&#…

Pandas 核心数据结构详解:Series 和 DataFrame 完全指南

1. 前言:为什么需要 Pandas 数据结构? 在数据处理和分析中,我们需要高效的方式来存储和操作结构化数据。Python 原生的列表(List)和字典(Dict)虽然灵活,但缺乏针对数据分析的优化。…

使用 Solscan API 的开发指南:快速获取 Solana 链上数据

Solana 生态中有多个区块浏览器,其中 Solscan 提供了功能全面的 API,适用于查询地址资产、Solana 生态中有多个区块浏览器,其中 Solscan 提供了功能全面的 API,适用于查询地址资产、交易详情、合约交互等多种开发场景。相比直接使…

高效工具-libretv

什么是libretv? LibreTV 是一个轻量级、免费的在线视频搜索与观看平台,提供来自多个视频源的内容搜索与播放服务。无需注册,即开即用,支持多种设备访问。项目结合了前端技术和后端代理功能,可部署在支持服务端功能的各类网站托管…

回溯----5.括号生成

题目链接 /** 合法括号生成规则: 第一个括号必须是左括号(第一个为右必定无法闭合) 选择过程中左括号数量必须小于n才可选择左括号(大于n则一定有括号无法闭合) 左括号数量必须大于右括号数量才可选择右括号(相等代表所有前驱括号都已闭合) 所需参数: left 记录已选择左括号数…

【weaviate】分布式数据写入之LSM树深度解析:读写放大的权衡

文章目录 一、LSM树的设计哲学:写优化的根本动机1、 传统B树存储的性能瓶颈2、 LSM树的根本性创新 二、写入路径的深度技术分析1、 WAL机制的精密设计2、 MemTable的数据结构3、 刷盘(Flush)过程的技术细节 三、Compaction策略:LS…

Pygame 大鱼吃小鱼

【Pygame 大鱼吃小鱼】是一款基于Python编程语言和Pygame库开发的趣味游戏。Pygame是Python中一个广泛用于开发2D游戏的开源模块集合,它提供了丰富的功能,如窗口管理器、事件处理、图形绘制等,使得初学者也能快速上手创建游戏。 这段 Python …

【为什么在触发的事件中修改控件属性需要使用`Invoke`】

在C#中,特别是在使用Windows Forms或WPF等GUI框架时,控件的属性和状态通常只能在创建它们的线程(即UI线程,即主线程或用户界面线程)中直接修改。这是由于这些框架的设计基于单线程模型,其中所有与用户界面&…

Android 当apk是系统应用时,无法使用webView的解决方案

最近在做项目时,遇到了一个无法使用webView的问题,apk是系统应用,点击加载webView时应用就是崩溃,原因是系统应用时,Android会觉得webView不安全,不避让加载。 解决的思路就是使用映射,把原生的…

ArcGIS Pro无插件加载(无偏移)天地图!一次添加长久使用

以前我们介绍过:ArcGIS无插件加载(无偏移)天地图。这次我们来介绍ArcGIS Pro中如何添加天地图。 我们将通过从天地图官网自己添加服务链接并添加至收藏的方式以及应急的方法来做本次的介绍。天地图的数据主要包括影像、电子地图、地形图等。我…

Go堆内存管理

# Go堆内存管理 1. Go内存模型层级结构 Golang内存管理模型与TCMalloc的设计极其相似。基本轮廓和概念也几乎相同,只是一些规则和流程存在差异。 2. Go内存管理的基本概念 Go内存管理的许多概念在TCMalloc中已经有了,含义是相同的,只是名字…

零售 EDI:Chewy EDI 项目注意事项

在此前的文章《供应商对接Chewy的EDI需求》中,介绍了Chewy的EDI需求,本文主要为大家分享Chewy对于各个业务单据的细节性需求,了解这些细节性注意事项将帮助企业快速基于知行软件提供的EDI服务与Chewy建立EDI对接。 基于知行之桥EDI系统能够通…

Android录制视频自带铺满多行水印

文章目录 引言环境要求代码实现总结 引言 之前做过几种水印需求,这篇文章是关于使用Android原生库开发录制视频自带满帧文字水印。 环境要求 Android 7.0以上Android Studio ,官方开发者官网视频录制功能参考开源库PictureSelector的camerax库 //用到的…

观远ChatBI:加速零售消费企业数据驱动的敏捷决策

近年来,随着国产大模型(如DeepSeek)的快速发展,企业对智能化数据分析工具的需求日益增长。观远数据推出的ChatBI,基于大语言模型(LLM)打造,旨在通过自然语言交互降低数据分析门槛&am…

鸿蒙NEXT-鸿蒙三层架构搭建,嵌入HMRouter,实现便捷跳转,新手攻略。(1/3)

接下来,我将手把手带领大家去完善,搭建一个鸿蒙的三层架构,另实现HMRouter的嵌入。完成后,大家可任意跳转页面,在三层架构中,书写属于自己的篇章。 第0步,项目与AGC华为控制台关联起来 首先AG…

鸿蒙ArkTs仿网易云音乐项目:架构剖析与功能展示

鸿蒙ArkTs仿网易云音乐项目:架构剖析与功能展示 一、引言 在移动应用开发的浪潮中,音乐类应用始终占据着重要的一席之地。网易云音乐凭借其丰富的音乐资源、个性化的推荐算法和独特的社交互动功能,深受广大用户的喜爱。本文将详细介绍一个基…

【web 安全】从 HTTP 无状态到现代身份验证机制

文章目录 Web 安全与系统设计Web存在的问题:Web 是无状态的解决方案一、早期解决方案:Session Cookie 的诞生二、第二阶段:Token 的出现(前后端分离 移动端的解决方案)三、分析总结:1.早期版本&#xff1…

FlutterUnit TolyUI | 布局游乐场

FlutterUnit 基于 TolyUI 大大简化了界面构建的代码复杂程度,因此之前想要实现的一些小功能,就可以轻松支持。布局游乐场是通过交互的方式来 直观体验 组件的布局特性,从而更易学和掌握。目前 FlutterUnit 已在 知识集录模块新增了 布局宝库&…

【数据分析一:Data Collection】信息检索

本节内容含有各典型数据集的推荐,以及其网址,大家根据需要自取 一、检索 最简单、最灵活的数据获取方式就是依靠检索: Google:更适合搜索英文信息 Google Dataset Search(Google 数据集搜索) 网址&…