点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Compress Any Segment Anything Model (SAM)

受SAM在零样本分割任务上卓越表现的驱动,其各类变体已被广泛应用于医疗、智能制造等场景。然而,SAM系列模型体量巨大,严重限制了在资源受限环境中的部署效率。本文提出了一种名为Birkhoff的新型无数据压缩算法,旨在对SAM及其变体进行高效压缩。与传统剪枝、量化、蒸馏等方法不同,Birkhoff具备跨模型通用、部署迅捷、忠实原模型、体积紧凑四大优势。其核心创新是引入“超压缩”机制:通过寻找稠密轨迹,将高维参数向量映射为低维标量。此外,本文设计了专用线性算子HyperLinear,将解压缩与矩阵乘法融合,显著提升压缩模型的推理速度。在COCO、LVIS、SA-1B三大数据集上对18个SAM变体的实验表明,Birkhoff在压缩时间、压缩率、压缩后性能及推理速度上均表现优异。例如,在SAM2-B上实现5.17倍压缩率,性能下降不足1%,且无需任何微调数据,压缩全程在60秒内完成。

文章链接:

https://arxiv.org/pdf/2507.08765

02

Compactor: Calibrated Query-Agnostic KV Cache Compression with Approximate Leverage Scores

现代大语言模型(LLM)已能支持极长上下文,但在实际部署中,KV 缓存随序列长度线性增长的内存开销成为主要瓶颈。本文提出 Compactor——一种无需查询信息、完全无参数的 KV 缓存压缩策略。该方法利用近似统计杠杆分数衡量 token 重要性,并结合非因果注意力分数,共同决定保留哪些 token。实验表明,Compactor 在 27 项合成与真实长文本任务(RULER、Longbench)上,仅用 50% 的 KV 缓存即可达到与完整缓存相当的性能,且计算开销极低。此外,本研究引入“上下文校准压缩”机制,可在推理阶段为任意文本动态估计最大可压缩比例,在 Longbench 上平均减少 63% 的 KV 内存,同时保持与全缓存一致的性能。作者在 Qwen2.5 与 Llama3.1 系列模型上验证了方法的通用性与有效性。

文章链接:

https://arxiv.org/pdf/2507.08143

03

Integrating External Tools with Large Language Models (LLM) to Improve Accuracy

大语言模型(LLM)在缺乏相关上下文时容易产生幻觉或给出低质量回答。为缓解这一问题,本文提出Athena框架,通过调用外部API及计算工具(如计算器、日历、Wolfram Alpha、ArXiv、搜索引擎等)为模型提供实时、精确的信息与计算能力。Athena采用Schema化工具注册机制,使模型可自动识别何时调用何种工具,并解析参数、整合结果。在MMLU数学与科学推理数据集上的评估显示,Athena在数学任务上达到83%准确率,在科学任务上达到88%,显著优于GPT-4o、LLaMA-Large、Mistral-Large、Phi-Large及GPT-3.5等基线(最佳基线分别为67%与79%)。实验表明,工具整合带来的增益可弥补模型规模扩张的不足,为构建围绕LLM的复杂计算生态系统提供了可行路径。

文章链接:

https://arxiv.org/pdf/2507.08034

04

Unveiling Effective In-Context Configurations for Image Captioning: An External & Internal Analysis

随着大模型的发展,上下文学习(ICL)已被成功从自然语言处理推广到视觉-语言多模态任务。然而,如何为多模态ICL设计合适的示例配置仍缺乏系统研究,且模型内部机制亦未得到充分解释。本文以图像描述任务为切入点,从“外部配置”与“内部机理”两个维度开展全面探究。外部方面,作者系统探索了示例数量、图像检索策略及文本描述质量三个因素,利用多种评价指标总结其影响规律;内部方面,作者深入分析大视觉-语言模型的注意力分布,提出锚定标记、涌现注意力窗口和描述捷径三种典型模式,并设计对应注意力指标进行量化。实验表明,随着示例数量增加,语言连贯性提高,但视觉-文本对齐可能下降;低质量描述会在多示例场景下放大噪声,而相似图像检索易诱发“描述抄袭”捷径行为。此外,作者发现即使架构相同,预训练数据差异也会导致模型行为显著不同,并据此提出基于锚定标记的轻量化推理加速方法,可在几乎不损失性能的前提下降低50% KV缓存。

文章链接:

https://arxiv.org/pdf/2507.08021

05

Introspection of Thought Helps AI Agents

大语言模型(LLM)与多模态大模型(MLLM)已成为 AI Agent 的核心推理引擎,但仅依靠提示工程或外部迭代框架仍受限于模型自身的语言理解局限,且多轮交互带来高昂 token 成本。为此,本文提出 Introspection of Thought(INoT)框架,通过在提示中嵌入“PromptCode”——一种融合 Python 与自然语言的可读代码,使模型在单次调用内部即可完成多轮辩论、自我否定与反思。INoT 将传统外部多 Agent 的迭代过程压缩进 LLM 内部,显著减少 token 开销。在数学、代码、问答 6 个基准及 3 个图像问答数据集上的实验表明,INoT 平均提升 7.95% 性能,token 成本较最佳基线降低 58.3%,并展现了良好的跨模型通用性与多模态适应性。

文章链接:

https://arxiv.org/pdf/2507.08664

06

DatasetAgent: A Novel Multi-Agent System for Auto-Constructing Datasets from Real-World Images

传统图像数据集的构建高度依赖人工收集与标注,耗时低效;而纯合成数据又难以覆盖真实世界的多样性。针对这一矛盾,本文提出 DatasetAgent——一个由四个专业化智能体(需求分析、图像处理、数据标注、监督协调)协同工作的多模态系统。该系统仅需用户提供高层需求或现有数据集,即可自动完成图像检索、质量优化、清洗与多任务标注(分类、检测、分割),全程使用真实世界图像,避免合成数据的缺陷。在扩展 CIFAR-10、STL-10、PASCAL VOC 与 CamVid 以及从零构建新数据集的实验中,DatasetAgent 输出的数据集在类别平衡、视觉质量、标注可靠性等六项指标上均达到或超越人工基准,且下游模型在分类、检测、分割任务上平均准确率提升 0.4–3.9 个百分点。

文章链接:

https://arxiv.org/pdf/2507.08648

07

From Language to Logic: A Bi-Level Framework for Structured Reasoning

当前大语言模型在结构化推理任务中仍依赖非结构化的链式思考,易出现冗长、不可解释且易错的问题。本文提出 Lang2Logic——一种双层推理框架,将自然语言问题先抽象为包含变量、约束与目标的结构化模型,再生成可执行的 Python 逻辑程序并运行以得到最终答案。该框架采用“优化引导形式化”与“逻辑生成”两级 LLM 协作,并通过双层强化学习算法联合优化,实现跨领域(因果、逻辑、数学、时空推理等)的模块化、可解释推理。在 9 个挑战性基准上的实验表明,Lang2Logic 相比最佳基线平均提升 10% 以上,在复杂任务中最高提升 40%,同时显著降低推理链长度与幻觉风险。

文章链接:

https://arxiv.org/pdf/2507.08501

本期文章由陈研整理

近期活动分享

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你 

在看

提出观点,表达想法,欢迎 

留言

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90826.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90826.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/90826.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用frp实现内网穿透功能(服务器)Linux、(内网)Windows

适用于: 本地电脑(windows)或者Linux(本篇未介绍) 工具:FRP(fast reverse proxy) 系统:Linux、Windows 架构:x86、amd Frp版本:frp_0.62.1_windows_amd64准备…

结合二八定律安排整块时间

你是不是常常感觉一天到晚忙忙碌碌,却总觉得没干成几件“要紧事”?时间仿佛从指缝间溜走,成就感却迟迟不来?其实,高效能人士的秘诀往往藏在最简单的原则里。今天,我们就来聊聊如何巧妙运用“二八定律”&…

波形发生器AWG硬件设计方案

目录 简介 设计需求 设计方案 核心原理图展示 简介 波形发生器是一种数据信号发生器,在调试硬件时,常常需要加入一些信号,以观察电路工作是否正常。用一般的信号发生器,不但笨重,而且只发一些简单的波形&#xff…

11.Dockerfile简介

1.是什么? dockerfile是用来构建镜像的文本文件,是由一条条构建镜像所需的指令和参数构成的脚本。 构建三步骤 编写dockerfile文件docker build命令构建镜像docker run依镜像运行的容器实列 2.dockerfile构建过程解析 1)dockerfile内容的基础知识 …

C# 接口(interface 定义接口的关键字)

目录 使用接口案例 接口继承 练习 定义一个接口,在语法中与定义一个抽象类是没有区别的,但是不允许提供接口中任意成员的实现方式,一般接口只会包含方法 、索引器和事件的声明, 不允许声明成员的修饰符, public都不…

5190 - 提高:DFS序和欧拉序:树上操作(区域修改1)

题目传送门 时间限制 : 2 秒 内存限制 : 256 MB 有一棵点数为 N 的树,以点 1 为根,且树点有边权。然后有 M 个 操作,分为三种: 操作 1 :把某个节点 x 的点权增加 a 。 操作 2 :把某个节点 x 为根的子树中…

【Oracle】数据泵

ORACLE数据库 数据泵 核心参数全解析 ORACLE expdp 命令使用详解 1.ATTACH[schema_name.]job_name Schema_name 用于指定方案名,job_name 用于指定导出作业名.注意,如果使用 ATTACH 选项,在命令行除了连接字符串和 ATTACH 选项外,不能指定任何其他选项,示例如下: expdp hr/hr A…

机器学习的算法有哪些?

🌟 欢迎来到AI奇妙世界! 🌟 亲爱的开发者朋友们,大家好!👋 我是人工智能领域的探索者与分享者,很高兴在CSDN与你们相遇!🎉 在这里,我将持续输出AI前沿技术、实…

【计算机网络】OSI七层模型

OSI七层模型为什么需要OSI七层模型?OSI七层模型具体是什么?Layer7:应用层(Application Layer)Layer6:表示层(Presentation Layer)Layer5:会话层(Session Laye…

RS485转Profinet网关配置指南:高效启动JRT激光测距传感器测量模式

RS485转Profinet网关配置指南:高效启动JRT激光测距传感器测量模式RS485转Profinet网关:让JRT激光测距传感器高效开启测量模式在工业自动化场景中,设备间的高效通信是实现精准控制的关键。RS485转Profinet网关作为连接传统RS485设备与现代Prof…

「日拱一码」040 机器学习-不同模型可解释方法

目录 K最近邻(KNN) - 基于距离的模型 决策边界可视化 查看特定样本的最近邻 ​随机森林(RF) - 树模型 feature_importances_ SHAP值分析 可视化单棵树 多层感知器(MLP) - 神经网络 部分依赖图 LIME解释器 权重可视化 支持向量回归(SVR) - 核方法 支持向量可视化 部…

编程与数学 03-002 计算机网络 09_传输层功能

编程与数学 03-002 计算机网络 09_传输层功能一、传输层的作用(一)进程间通信(二)提供可靠传输(三)复用与分用二、TCP协议(一)TCP的连接建立与释放(二)TCP的可…

14. Web服务器-Nginx-工作原理

文章目录前言一、简介二、工作原理1. 多进程架构2. 事件驱动模型3. 模块化设计三、工作流程1. 启动阶段2. 等待连接3. 请求处理阶段4. 响应构造与输出5. 连接关闭前言 Nginx‌ Nginx(发音为“Engine-X”)是一款高性能的开源Web服务器软件,同…

AP-0316:集 USB 即插即用、智能降噪于一体的多功能 AI 声卡,重新定义清晰语音交互

AP-0316突发噪音和抗风噪测试还在为语音设备的噪音刺耳、连接复杂、功放适配麻烦而头疼?AP-0316 多功能 AI 降噪消回音 USB 声卡来了 —— 以 “USB 即插即用 自带功放 智能降噪 场景适配” 四大核心优势,将专业级语音处理技术变得简单易用&#xff0…

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现卫星图像识别(C#代码,UI界面版)

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现卫星图像识别(C#代码,UI界面版)工业相机使用YoloV8模型实现水下鱼类识别工业相机通过YoloV8模型实现卫星图像识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换…

某d的评论爬虫学习

本教程仅用于技术研究,请确保遵守目标网站的服务条款。实际使用前应获得官方授权,避免高频请求影响服务器,否则可能承担法律责任。此脚本仅拦截公开评论接口,不涉及用户私密数据。请勿修改代码监听其他请求。分享一下爬某抖评论的…

SQLite 注入:理解与防御

SQLite 注入:理解与防御 引言 随着互联网技术的飞速发展,数据库已成为各类应用程序的核心组成部分。SQLite 作为一款轻量级的关系型数据库,广泛应用于移动应用、桌面应用及嵌入式系统。然而,SQLite 数据库也面临着安全挑战&#x…

Java中List集合对象去重及按属性去重

请直接移步原文Java中List集合对象去重及按属性去重的8种方法 只记录自己喜欢的几种方法 对象元素整体去重的2种方法按照对象属性去重的4种方法 预备数据 public class ListRmDuplicate {private List<String> list;private List<Player> playerList;BeforeEac…

ADAS测试:如何用自动化手段提升VV效率

当前&#xff0c;ADAS 技术正在快速发展&#xff0c;从智能巡航控制到自动紧急制动等功能已逐渐成为汽车的标配。在不断提升驾驶辅助能力的同时&#xff0c;系统的可靠性也受到前所未有的重视。为了确保这些关键系统在各种工况下都能正常运行&#xff0c;验证与确认&#xff08…

互信息:理论框架、跨学科应用与前沿进展

1. 起源与核心定义 互信息&#xff08;Mutual Information, MI&#xff09;由克劳德香农&#xff08;Claude Shannon&#xff09; 在1948年开创性论文《A Mathematical Theory of Communication》中首次提出&#xff0c;该论文奠定了现代信息论的基础。互信息用于量化两个随机…