点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

大型语言模型(LLMs)在推理过程中,键值(KV)缓存的高内存需求严重限制了其在资源受限平台上的部署。量化可以有效缓解KV缓存带来的内存压力。然而,现有方法要么依赖于静态的“一刀切”精度分配,要么无法在长文本任务中动态优先处理关键KV,导致内存、准确性和吞吐量之间的次优权衡。本文提出了一种名为KVmix的新型KV缓存混合精度量化方法。KVmix利用基于梯度的重要性分析来评估各个键和值投影矩阵对模型损失的影响,从而实现针对不同层的混合精度量化。它动态地为重要层分配更高精度,同时积极量化影响力较小的层,实现了准确性和效率之间的可调平衡。此外,KVmix还引入了一种动态长文本优化策略,自适应地为最近的关键标记保留全精度KV对,同时压缩较旧的KV对,以低内存使用量实现高质量的序列生成。此外,KVmix还提供了高效的低比特量化和CUDA内核,以优化计算开销。在Llama和Mistral等LLMs上,KVmix在极低的量化配置(键2.19位,值2.38位)下实现了近乎无损的推理性能,同时将内存压缩率提高到4.9倍,并将推理吞吐量提高了5.3倍。

文章链接:

https://arxiv.org/pdf/2506.08018

02

Reinforcement Learning Teachers of Test Time Scaling

训练推理语言模型(LMs)以强化学习(RL)的方式实现单热正确性,本质上依赖于LM在初始化时能够探索并有一定机会解决任务。此外,推理LM的一个关键用例是作为教师,用于蒸馏新的学生模型和启动未来的RL迭代,而不是直接部署。基于这些考虑,本文引入了一个新框架,通过训练一类新的强化学习教师(RLTs),专注于产生最有效的下游蒸馏效果,从而避免了RL的探索挑战。RLTs在提示中既包含问题又包含解决方案,任务是简单地“连接点”,为学生提供详细的解释。通过将每个解释输入学生模型并测试其对问题解决方案的理解,获得密集奖励,从而训练RLTs。在实践中,一个7B参数的RLT的原始输出在竞赛和研究生级别的任务上提供了比现有蒸馏和冷启动管道更高的最终性能,而现有管道收集和后处理的推理痕迹比RLT大几个数量级。此外,RLTs在训练更大规模的学生模型时保持其有效性,并且在零样本情况下应用于分布外任务时,解锁了RL推理框架的新效率和可重用性水平。

文章链接:

https://arxiv.org/pdf/2506.08388

03

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

零样本生成模型适应(ZSGM)的目标是仅使用文本指导而不依赖目标域的任何样本,将预训练的生成器适应到目标域。最近的 ZSGM 方法的核心是方向损失,它通过在视觉 - 语言模型(如 CLIP)的嵌入空间中对齐图像偏移量与文本偏移量来实现。然而,现有 ZSGM 方法的一个主要限制是,学习目标假设图像偏移量和文本偏移量在 CLIP 嵌入空间中完全对齐,这导致生成图像质量下降。本文做出了两项主要贡献。首先,受 NLP 中偏移量错位研究的启发,本文对多个大型公开可用数据集进行了实证研究,分析了 CLIP 嵌入空间中文本偏移量和图像偏移量之间的错位。研究发现,CLIP 嵌入空间中的偏移量错位与概念距离相关,即概念越接近,偏移量错位越小。其次,为了解决当前方法的局限性,本文提出了适应性迭代细化(AIR),这是首个基于对偏移量错位的新见解来提高目标域图像质量的 ZSGM 方法。通过定性、定量和用户研究,在 26 种实验设置中,AIR 方法一致地实现了 SOTA 性能。

文章链接:

https://arxiv.org/pdf/2506.10895

04

A Study on Individual Spatiotemporal Activity Generation Method Using MCP-Enhanced Chain-of-Thought Large Language Models

人类时空行为模拟对于城市规划及相关领域的研究至关重要,然而传统的基于规则和统计的方法面临着计算成本高、泛化能力有限和可扩展性差等显著限制。尽管大语言模型(LLMs)作为“世界模拟器”展现出巨大潜力,但在时空推理方面仍面临诸多挑战,包括空间认知能力有限、缺乏对物理约束的理解以及群体同质化倾向等。本文提出了一个将链式思维(CoT)推理与模型上下文协议(MCP)相结合的框架,以增强LLMs在模拟和生成与验证数据模式相符的时空行为方面的能力。该方法结合了通过五阶段认知框架进行类似人类的逐步推理以及通过六个专业MCP工具类别进行全面数据处理能力:时间管理、空间导航、环境感知、个人记忆、社会协作和经验评估。通过在上海陆家嘴地区的实验验证了该框架的有效性,涵盖了1000个生成样本。结果表明,该方法生成的样本与真实移动信号数据相符,不同基础模型在受控实验条件下生成质量得分范围为7.86到8.36。并行处理实验表明,在测试配置下,从2个进程扩展到12个进程时,每个样本的生成时间从1.30分钟降低到0.17分钟,从而证明了该框架大规模部署的潜力。本研究为将CoT推理与MCP相结合用于城市行为建模做出了贡献,推动了LLMs在城市计算中的应用,并为在数据受限环境中生成合成移动数据提供了实用方法。该框架为探索智能城市规划、交通预测、参与式城市设计等相关领域的潜在应用提供了基础。

文章链接:

https://arxiv.org/abs/2506.10853

05

LLM-Driven Personalized Answer Generation and Evaluation

在线学习因其灵活性和可及性而经历了快速增长。个性化,即适应个体学习者的需求,对于增强学习体验至关重要,尤其是在在线环境中。个性化的一个关键方面是为学习者提供针对其具体问题的定制化答案。因此,本文探索了大语言模型(LLMs)在为学习者的问题生成个性化答案方面的潜力,从而增强参与度并减轻教育工作者的工作负担。为了评估LLMs在此背景下的有效性,作者在StackExchange平台上进行了全面的研究,涵盖语言学习和编程两个不同领域。作者开发了一个框架和数据集,用于验证自动生成的个性化答案。随后,作者使用不同的策略(包括0-shot、1-shot和few-shot场景)生成个性化答案,并通过三种方法进行评估:1. BERTScore,2. LLM评估,3. 人类评估。研究结果表明,为LLMs提供来自学习者或类似学习者的期望答案示例,可以显著增强其为个体学习者定制回答的能力。

文章链接:

https://arxiv.org/pdf/2506.10829

06

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

长视频理解(LVU)对于当前的多模态大语言模型(MLLMs)来说是一个重大挑战,因为该任务本身复杂且受到上下文窗口的限制。人们普遍认为,解决LVU任务需要基础MLLMs具备扩展的上下文窗口、强大的视觉感知能力和熟练的领域专业知识。然而,本文通过引入VideoDeepResearch这一新颖的代理框架来挑战这一普遍观点。该方法仅依赖于一个纯文本的大推理模型(LRM),结合一个模块化的多模态工具包,包括多模态检索器和视觉感知器,这些工具在实践中都是现成可用的。对于每个LVU任务,系统通过推理制定问题解决策略,同时通过工具使用有选择地访问和利用必要的视频内容。作者在流行的LVU基准测试(包括MLVU、Video-MME和LVBench)上进行了广泛的实验。结果表明,VideoDeepResearch在现有MLLM基线上取得了显著改进,分别在MLVU(测试集)、LVBench和LongVideoBench上超过了之前的最佳水平9.6%、6.6%和3.9%。这些发现突出了代理系统在克服LVU问题关键挑战方面的潜力。

文章链接:

https://arxiv.org/pdf/2506.10821

07

OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems

大型语言模型(LLMs)在解决多样化任务中表现出色,但在通过学习以往反馈迭代优化复杂解决方案方面的能力尚未得到充分探索。为此,本文提出了OPT-BENCH,这是一个用于评估LLM代理在大规模搜索空间优化问题上的综合基准测试。OPT-BENCH包含20个来自Kaggle的真实世界机器学习任务和10个经典的NP问题,为评估LLM代理在迭代推理和解决方案改进方面的能力提供了多样化且具有挑战性的环境。为了实现严谨的评估,本文还引入了OPT-Agent,这是一个端到端的优化框架,通过生成、验证并利用历史反馈迭代改进解决方案,模拟人类在解决复杂问题时的推理过程。通过对来自6个模型家族的9个最先进的LLMs进行广泛的实验,本文分析了优化迭代次数、温度设置和模型架构对解决方案质量和收敛的影响。结果表明,整合历史上下文能够显著提升在机器学习和NP任务上的优化性能。所有数据集、代码和评估工具均已开源,以促进对LLM驱动优化和迭代推理的进一步研究。

文章链接:

https://arxiv.org/pdf/2506.10764

本期文章由陈研整理

近期活动分享


ICML 2025预讲会45位讲者相聚|7大主题方向

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你 

在看

提出观点,表达想法,欢迎 

留言

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/87244.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/87244.shtml
英文地址,请注明出处:http://en.pswp.cn/web/87244.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 Spring Boot 中使用 WebMvcConfigurer

WebMvcConfigurer 是 Spring MVC 提供的一个扩展接口,用于配置 Spring MVC 的各种功能。在 Spring Boot 应用中,通过实现 WebMvcConfigurer 接口,可以定制和扩展默认的 Spring MVC 配置。以下是对 WebMvcConfigurer 的详细解析及其常见用法。…

w-笔记:uni-app的H5平台和非H5平台的拍照识别功能:

uni-app的H5平台和非H5平台的拍照识别功能&#xff1a; <template><view class"humanVehicleBinding"><view v-if"warn" class"shadow"></view><view class"header"><uni-nav-bar left-icon"l…

TCP 半连接队列和全连接队列(结合 Linux 2.6.32 内核源码分析)

文章目录 一、什么是 TCP 半连接队列和全连接队列二、TCP 全连接队列1、如何查看进程的 TCP 全连接队列大小&#xff1f;注意 2、TCP 全连接队列溢出问题注意 3、TCP 全连接队列最大长度 三、TCP 半连接队列1、TCP 半连接队列溢出问题2、TCP 半连接队列最大长度3、引申问题 一、…

linux下fabric环境搭建

参考教程&#xff1a; https://devpress.csdn.net/cloudnative/66d58e702045de334a569db3.html?dp_tokeneyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6MjA2MzY4NywiZXhwIjoxNzQwMzY4MDc0LCJpYXQiOjE3Mzk3NjMyNzQsInVzZXJuYW1lIjoiaHVhbmd0dXBpIn0.oh8e4F6Sw_A4SV2ODQ5W0pYK0…

Redis Pipeline介绍:提高操作Redis数据库的执行效率

Redis Pipeline是一种用于提高Redis执行效率的技术&#xff0c;通过减少客户端与服务器之间的通信开销&#xff0c;显著提升批量操作的性能。本文将详细介绍Redis Pipeline的概念、使用场景、实现方式及其优势。 一、Redis Pipeline的概念 Redis Pipeline是一种批处理机制&am…

linux长时间锁屏无法唤醒

是的&#xff0c;您这么理解很直接&#xff0c;抓住了要点。 简单来说&#xff0c;就是这样&#xff1a; 电脑睡觉有两种方式&#xff1a; 打个盹&#xff08;挂起/Suspend&#xff09;&#xff1a; 把工作状态保存在内存里。这个一般和 Swap 分区没关系。睡死过去&#xff…

STM32F103_Bootloader程序开发11 - 实现 App 安全跳转至 Bootloader

导言 想象一下&#xff0c;我们的单片机 App 正在稳定地运行着&#xff0c;突然我们想给它升级一下&#xff0c;添加个新功能。我们该如何安全地通知它&#xff1a;“嘿&#xff0c;准备好接收新固件了” ? 这就需要 App 和 Bootloader 之间建立一个可靠的"秘密握手"…

Explain解释

参考官方文档&#xff1a;https://dev.mysql.com/doc/refman/5.7/en/explain-output.html explain关键字可以分析你的查询语句的结构和性能。 explain select查询&#xff0c; 执行会返回执行计划的信息。 注意&#xff1a;如果from中有子查询&#xff0c;仍然会执行该子查询…

选择 PDF 转 HTML 转换器的 5 个关键特性

市面上有很多 PDF 转 HTML 的转换器&#xff0c;每一款产品都有不同的功能组合。要理清并理解每个功能可能会让人感到困惑。那么&#xff0c;真正重要的是什么呢&#xff1f; 这篇文章将介绍我们认为在选择最佳 PDF 转 HTML 转换器时最重要的 5 个关键特性&#xff1a; 1. 转换…

使用堡塔在服务器上部署宝塔面板-linux版

使用堡塔在服务器上部署宝塔面板-linux版 使用堡塔多机管理登录服务器 进入宝塔官网&#xff0c;获取安装脚本 wget -O install_panel.sh https://download.bt.cn/install/install_panel.sh && sudo bash install_panel.sh ed8484bec3. 在堡塔多机管理中&#xff0c;…

【Unity高级】Unity多界面游戏场景管理方案详解

引言&#xff1a;游戏界面管理的挑战 在Unity游戏开发中&#xff0c;尤其是包含多个功能界面&#xff08;如主菜单、关卡选择、游戏页面、设置和商城&#xff09;的游戏&#xff0c;如何高效管理场景与界面是架构设计的核心挑战。本文将深入探讨三种主流实现方案&#xff1a;单…

WINDOWS最快布署WEB服务器:apache2

安装JDK下载 https://tomcat.apache.org/ Index of /dist/tomcat/tomcat-9 安装测试 http://localhost:8080/ 替换自己的文件 把自己的文件复制到&#xff1a; C:\Program Files\Apache Software Foundation\Tomcat 9.0\webapps\ROOT

Microsoft Edge 打开无反应、打开后显示兼容性问题、卸载重装 解决方案。一键卸载Microsoft Edge 。

背景&#xff1a;网络上的浏览器修复、重装、恢复默认应用测试后无用&#xff0c;以下卸载重装方案经实测可以正常使用Microsoft Edg。 卸载软件在资源里&#xff0c;请自取。 一、卸载软件&#xff1a;Remove-Edge_GUI.exe 双击卸载等待即可。 二、在微软商店重新安装Micro…

Spring Boot - 参数校验:分组校验、自定义注解、嵌套对象全解析

01 依赖配置 在构建高效的校验体系前&#xff0c;需先完善项目依赖配置。 以下是优化后的依赖示例&#xff1a; <dependencies><!-- Web 依赖&#xff0c;提供 RESTful 接口支持 --><dependency><groupId>org.springframework.boot</groupId>…

深入浅出多模态》(十一)之多模态经典模型:Flamingo系列

&#x1f389;AI学习星球推荐&#xff1a; GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料&#xff0c;配有全面而有深度的专栏内容&#xff0c;包括不限于 前沿论文解读、…

基于Pandas和FineBI的昆明职位数据分析与可视化实现(三)- 职位数据统计分析

文章目录 一、职位数据分析1. 一级分类职位数量统计分析2. 职位二级分类分布分析3. 职位分布分析4. 工作经验需求分布分析5. 学历要求职位分布分析6. 企业职位供给前507. 不同规模公司的职位数量统计8. 区域职位分布分析9. 各区域平均薪资范围分布分析10. 不同工作经验平均薪资…

大数据Hadoop之——安装部署hadoop

目录 前期准备 一、JDK的安装 1、安装jdk 2、配置Java环境变量 3、加载环境变量 4、进行校验 二、hadoop的环境搭建 1、hadoop的下载安装 2、配置文件设置 2.1. 配置 hadoop-env.sh 2.2. 配置 core-site.xml 2.3. 配置 hdfs-site.xml 2.4. 配置 yarn-site.xml 2.…

Spring IoC DI介绍

文章目录 IoC & DI 介绍IoC介绍DI 介绍 组件注册Bean 命名约定方法注解 Bean总结 扫描路径DI 详解属性注入构造方法注入Setter 注入三种注入优缺点分析 当同一类型存在多个Bean时,直接使用Autowired会存在问题使用Primary注解使用Qualifier注解使用Bean的名称使用Resource注…

【Flutter】解决 flutter_inappwebview在 Windows 上使用导致应用闪退问题

问题背景 在 Windows 11 上运行 Flutter 桌面应用时&#xff0c;应用出现闪退现象。通过系统事件日志分析&#xff0c;发现是 MSVCP140.dll 模块的访问冲突异常&#xff08;错误代码 c0000005&#xff09;导致的崩溃。 问题分析 1. 错误现象 应用启动后立即闪退Windows 事件…

使用 JavaScript、Mastra 和 Elasticsearch 构建一个具备代理能力的 RAG 助手

作者&#xff1a;来自 Elastic JD Armada 了解如何在 JavaScript 生态系统中构建 AI 代理。 Elasticsearch 与业界领先的生成式 AI 工具和服务商有原生集成。查看我们的网络研讨会&#xff0c;了解如何超越 RAG 基础&#xff0c;或使用 Elastic 向量数据库构建可投入生产的应用…