WideSearch:大规模信息检索基准测试

https://arxiv.org/pdf/2508.07999

字节:Agent大规模信息获取基准WideSearch

WideSearch:揭示 AI 智能体缺失的「广度」能力

Project Page: https://widesearch-seed.github.io/

get the data:https://huggingface.co/datasets/ByteDance-Seed/WideSearch
在这里插入图片描述

速览

本文介绍了WideSearch基准测试,这是一个专门用于评估大语言模型(LLMs)在大规模信息检索任务中的可靠性和完整性的新基准。随着大语言模型的快速发展,自动化搜索代理在解放人类从事繁琐信息检索工作方面展现出巨大潜力。然而,由于缺乏合适的基准测试,这些代理在大规模信息收集任务中的表现尚未得到充分评估。

WideSearch基准测试包含200个手动策划的问题(100个英文问题和100个中文问题),涵盖15个不同领域的实际用户查询。每个任务都要求代理收集大规模的原子信息,并将其组织成结构化的输出。通过严格的五阶段质量控制流程,确保数据集的难度、完整性和可验证性。

实验结果表明,即使是性能最好的多代理框架,其成功率也仅为5.1%,而大多数系统接近0%。相比之下,经过多次交叉验证的人类测试者可以达到接近100%的成功率。这表明,当前的搜索代理在大规模信息检索任务中存在关键缺陷,尤其是在确保每个原子信息单元的绝对完整性和准确性方面。

此外,本文还提出了一个高效的训练设计,通过减少冗余的注意力图计算,显著降低了训练时间和计算成本。通过详细的错误分析,研究发现当前代理系统在规划、反思和证据使用等高级代理能力方面存在根本性缺陷。

总结来说,WideSearch基准测试揭示了当前搜索代理在大规模信息检索任务中的不足,并为未来的研究和发展提供了明确的方向。这一基准测试不仅为评估搜索代理的能力提供了一个新的工具,还为开发更复杂的代理模型和架构提供了指导。

数据集实例

{"instance_id": "ws_zh_049","query": "我最近有些书荒,想买一些书来读一下,能不能按照排名给我整理一份2022-2024年(包含2022年和2024年)每年豆瓣阅读年度图书榜单总榜的前十名书籍,以及每年当当网的畅销书及好评排名前十的书籍,并给出这些书籍的作者名字?。请以一整个Markdown表格的格式输出整理后的数据,不要拆分成多个markdown表格,每个单元格都需要按列名要求输出,不得无故省略,输出采用中文。\n表格中的列名依次为:年份、种类、排名、书籍、作者\n注意:种类中需要区分出豆瓣阅读年度图书、当当网畅销书、当当网好评书三种类型。不要问我任何问题,只需输出结果,输出格式为```markdown{数据内容}```","evaluation": '{"unique_columns": ["年份", "种类", "排名"], "required": ["年份", "种类", "排名", "书籍", "作者"], "eval_pipeline": {"年份": {"preprocess": ["norm_str"], "metric": ["exact_match"]}, "种类": {"preprocess": ["norm_str"], "metric": ["exact_match"]}, "排名": {"preprocess": ["norm_str"], "metric": ["exact_match"]}, "书籍": {"preprocess": ["norm_str"], "metric": ["llm_judge"], "criterion": "和参考答案语义相同大致、或者指向的实体一致即可,不需要字字对应。"}, "作者": {"preprocess": ["norm_str"], "metric": ["llm_judge"], "criterion": "和参考答案语义相同大致、或者指向的实体一致即可,不需要字字对应。"}}}',"language": "zh",
}

在这里插入图片描述
标准答案
在这里插入图片描述

豆包回答

在这里插入图片描述

论文翻译

2 相关工作

2.1 搜索智能体的基准测试

搜索智能体的评估已取得显著发展,从简单的事实检索转向复杂的多步骤推理任务[12]。早期的基准测试(如Natural Questions[11]和TriviaQA[10])为问答任务奠定了基础,但它们所测试的信息往往可通过单次查询获取,或已包含在模型的参数化知识中。随后,多跳问答数据集(包括HotpotQA[30]、2WikiMultiHopQA[7]和Musique[26])的出现增加了任务复杂度,要求智能体关联多条证据以推导答案。然而,这些任务通常存在结构化的线性解题路径,未能充分体现现实世界搜索场景中所需的模糊性与非线性探索过程。

近年来,新的基准测试开始纳入这种复杂性,聚焦于我们归类为“深度搜索(DeepSearch)”的任务:即针对单一复杂主题的深入、纵向调查。例如,GAIA[16]提出了具有挑战性的多跳问题,突破了推理能力的边界。类似地,Xbench-DeepSearch[2]通过专业标注的动态任务,专门针对智能体的深度搜索与工具使用能力进行测试。BrowseComp-en/zh[27, 32]等基准测试则进一步提高了难度,其设计的任务包含紧密关联的实体与刻意的信息混淆,要求智能体通过复杂的非线性探索来降低高度的初始不确定性。与此同时,研究社区也在探索综合报告生成能力的评估。DeepResearch Bench[3]便是一个典型案例,该基准测试用于评估智能体解决博士级问题并将研究结果整合为详细、准确报告的能力。与现有针对单一查询深度推理的基准测试不同,WideSearch通过要求智能体填充结构化表格,评估其在多个并行实体间收集广泛信息的能力。

2.2 搜索智能体

先进搜索智能体的发展得益于专有技术与开源项目的共同推动。在OpenAI的深度研究智能体(Deep Research Agents)[18]和谷歌的Gemini深度研究(Gemini Deep Research)[4]等系统取得初步突破后,一系列相关研究应运而生。Grok-3深度研究(Grok-3 Deep Research)[29]和Kimi研究员(Kimi-Researcher)[17]等专有系统在复杂信息整合任务中展现出令人印象深刻的性能,部分甚至超越人类水平。然而,这些系统的闭源特性与不透明的训练方法,限制了社区驱动的研究与结果可复现性。

与此同时,开源社区主要沿两个方向开展研究。第一个方向是围绕模型的优化,主要通过强化学习(RL)对智能体进行端到端训练。例如,在本地语料库上训练的R1-Searcher[22]和Search-R1[9],以及使用真实搜索引擎的DeepResearcher[31]。为降低交互成本,ZeroSearch[24]训练大语言模型(LLM)以模拟搜索引擎;R1-Searcher++[23]通过记忆机制将内部知识与外部检索分离,进一步优化了这一过程;IKEA[8]则利用知识边界增强型强化学习减少冗余检索。WebDancer[28]和WebSailor[13]等其他研究则聚焦于生成高质量的合成数据。第二个方向是工作流与智能体协同调度,涉及多智能体系统的设计。WebThinker[14]采用专门的模块处理问题解决与报告撰写任务;Alita[20]则配备了可动态创建MCP工具的管理智能体。然而,这些智能体在广泛信息检索任务中的性能尚未得到充分评估。我们提出的WideSearch是首个专门用于评估搜索智能体此能力的基准测试,为该领域的未来发展奠定了基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/920502.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/920502.shtml
英文地址,请注明出处:http://en.pswp.cn/news/920502.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Docker基础】Docker-compose进阶配置:资源限制与高可用部署

目录 引言 1 Docker资源限制基础概念 1.1 为什么需要资源限制 1.2 Docker资源限制的类型 2 CPU与内存资源限制配置 2.1 传统资源限制方式(version 2) 2.2 现代资源限制方式(version 3 deploy.resources) 关键参数解释&…

SQL优化--OR

优化 SQL 中的 OR 条件是一个非常常见的性能调优问题。OR 操作符经常会导致性能下降,因为它使得数据库优化器难以高效地使用索引。下面我将从浅入深地为你讲解优化 OR 的多种策略,并附上示例。为什么 OR 性能往往较差?在简单的 WHERE 子句中&…

Java试题-选择题(21)

Java试题-选择题(21) 题目 有关线程的叙述正确的是 ? A:可以获得对任何对象的互斥锁定 B:通过继承Thread类或实现Runnable接口,可以获得对类中方法的互斥锁定 C:线程通过使用synchronized关键字可获得对象的互斥锁定 D:线程调度算法是平台独立的 下面有关forward和re…

预测模型及超参数:3.集成学习:[1]LightGBM

想象你是一位乐队指挥,你的任务是协调乐队中的每位音乐家,以演奏出一场完美的音乐会。每位音乐家(即决策树)擅长不同的乐器或乐章。在指挥过程中,你通过调节各位音乐家演奏的强度(模型参数)&…

Jetson进行旋转目标检测推理实现大疆无人机飞行控制

源码结构 大疆PSDK源码地址: https://github.com/dji-sdk/Payload-SDK其目录结构如下: Payload-SDK-master ├── CMakeLists.txt ├── doc │ ├── dji_sdk_code_style │ └── simple_model ├── EULA.txt ├── LICENSE.txt ├── psd…

阿里云百炼智能体连接云数据库实践(DMS MCP)

这篇文章主要是通过使用阿里云的百炼智能体与阿里云的serverless来实现数据库的操作 欢迎一起交流!! 首先,当然是选择自己需要的数据库啦 在阿里云控制台选择产品 - > 数据库 - > 数据管理DMS进来的界面如下所示 第一次进来的时候是…

某商店JS混淆补环境与纯算逆向分析

文章目录1. 写在前面2. 接口分析3. 补环境分析4. 纯算法还原【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并…

如何安装 mysql-installer-community-8.0.21.0.tar.gz(Linux 详细教程附安装包下载)​

这是一个 ​Linux 下 MySQL 8.0.21 的压缩安装包,虽然名字里有 installer,但它其实就是一个压缩好的二进制安装包,不是 Windows 那种图形化安装程序。 一、准备工作 确保你已经有: Linux 系统(比如 Ubuntu、CentOS、…

IDEA-琴澳研究中心及学术联盟启动,产研协同赋能区域发展

8月30日,IDEA-琴澳中心主导研发的Smaray渲染引擎将发布可免费下载的Tech Preview(技术预览版)。本次发布标志着粤港澳大湾区在政产研协同创新实现成果落地,也是产业“人工智能”的探索迈进。Smaray是国内首个公开服务的、AI驱动的…

如何备份 TECNO 手机上的短信

许多 TECNO 用户都在寻找方法,以防止因手机损坏、被盗或恢复出厂设置而导致重要对话意外丢失,确保在需要时能够访问他们的数据。还有些人希望在释放设备存储空间的同时,仍然保留旧消息的副本以供日后参考。如果你一直在寻找“备份 TECNO 短信…

OpenAI Sora深度解析:AI视频生成技术如何重塑广告电商行业?影业合作已落地

最近刷到一条超震撼的视频:咖啡杯从桌角滑落,在空中转了半圈居然自己弹回桌面,牛奶一滴没洒。你猜怎么着?这居然是AI生成的,就是OpenAI那个叫Sora的工具做的。是不是觉得有点不可思议?现在这技术已经能做到…

力扣p1011在D天送达包裹的能力 详解

题目如下:代码如下,先看代码,再看思路:注意,从check函数下方的left处看,我认为难点在于以啥来二分,都说求啥拿啥分,但实际无从下手,关键在于如何寻找边界,此处…

React Three Fiber

下面,我们来系统的梳理关于 React Three Fiber:WebGL 与 React 的基本知识点: 一、React Three Fiber 核心概念 1.1 什么是 React Three Fiber? React Three Fiber(R3F)是一个用于 Three.js 的 React 渲染…

YARN架构解析:深入理解Hadoop资源管理核心

YARN架构解析:深入理解Hadoop资源管理核心 🌟 你好,我是 励志成为糕手 ! 🌌 在代码的宇宙中,我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光,在逻辑的土壤里生长成璀璨的银…

爬虫代理的核心作用、分类及使用要点

在数据采集场景中,爬虫代理作为“中间传输节点”,通过转发爬虫请求、隐藏真实IP地址,解决传统爬虫面临的诸多限制,其核心价值体现在三个方面:突破IP封锁与访问限制:多数网站会对高频请求的IP进行封锁&#…

EXCEL开发之路(三)sheets梯形样式设计—仙盟创梦IDE

在蔬菜批发行业,高效的信息管理与操作便捷性对于业务的顺畅开展至关重要。梯形 Nav(导航栏)切换这一设计,看似只是界面交互的小细节,实则在提升用户体验、优化业务流程等方面有着不可忽视的意义,对于初学者…

Unity游戏打包——iOS打包pod的重装和使用

本文由 NRatel 历史笔记整理而来,如有错误欢迎指正。 一、重装 pod 和使用 1、下载安装 rvm curl -L get.rvm.io | bash -s stable 2、使环境变量生效 (zsh) source ~/.zshrc source ~/.profile 3、查看rvm版本 rvm -v 4、重装ruby 关闭mac sip(可能需…

AWS OpenSearch 可观测最佳实践

AWS OpenSearch 介绍 OpenSearch 是一种全面开源搜索和分析引擎,使用案例包括日志分析、实时应用程序监控、点击流分析等。Amazon OpenSearch Service 是一项托管服务,让用户能够在 AWS 云中轻松部署、运行并扩展 OpenSearch 集群。 观测云 观测云是一…

HTML5七夕节网站源码

一,网站概述 本七夕节主题网站采用HTML5、CSS3与JavaScript技术栈构建,响应式设计适配多终端设备,通过模块化开发实现丰富交互体验。以下从架构设计、功能实现和视觉效果三方面概述: 1.1、架构设计 采用单页应用(SPA)架构&…

以技术赋能强化消费者信任,助推餐饮服务质量提质增效的明厨亮灶开源了

AI 视频监控平台简介 AI 视频监控平台是一款兼具强大功能与便捷操作的实时算法视频监控系统。其核心愿景在于打破各大芯片厂商间的技术壁垒,省去冗余重复的适配流程,构建 “芯片 - 算法 - 应用” 的全流程组合体系。这一体系可帮助企业级应用降低约 95%…