点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

大型语言模型（LLMs）在推理过程中，键值（KV）缓存的高内存需求严重限制了其在资源受限平台上的部署。量化可以有效缓解KV缓存带来的内存压力。然而，现有方法要么依赖于静态的“一刀切”精度分配，要么无法在长文本任务中动态优先处理关键KV，导致内存、准确性和吞吐量之间的次优权衡。本文提出了一种名为KVmix的新型KV缓存混合精度量化方法。KVmix利用基于梯度的重要性分析来评估各个键和值投影矩阵对模型损失的影响，从而实现针对不同层的混合精度量化。它动态地为重要层分配更高精度，同时积极量化影响力较小的层，实现了准确性和效率之间的可调平衡。此外，KVmix还引入了一种动态长文本优化策略，自适应地为最近的关键标记保留全精度KV对，同时压缩较旧的KV对，以低内存使用量实现高质量的序列生成。此外，KVmix还提供了高效的低比特量化和CUDA内核，以优化计算开销。在Llama和Mistral等LLMs上，KVmix在极低的量化配置（键2.19位，值2.38位）下实现了近乎无损的推理性能，同时将内存压缩率提高到4.9倍，并将推理吞吐量提高了5.3倍。

文章链接：

https://arxiv.org/pdf/2506.08018

Reinforcement Learning Teachers of Test Time Scaling

训练推理语言模型（LMs）以强化学习（RL）的方式实现单热正确性，本质上依赖于LM在初始化时能够探索并有一定机会解决任务。此外，推理LM的一个关键用例是作为教师，用于蒸馏新的学生模型和启动未来的RL迭代，而不是直接部署。基于这些考虑，本文引入了一个新框架，通过训练一类新的强化学习教师（RLTs），专注于产生最有效的下游蒸馏效果，从而避免了RL的探索挑战。RLTs在提示中既包含问题又包含解决方案，任务是简单地“连接点”，为学生提供详细的解释。通过将每个解释输入学生模型并测试其对问题解决方案的理解，获得密集奖励，从而训练RLTs。在实践中，一个7B参数的RLT的原始输出在竞赛和研究生级别的任务上提供了比现有蒸馏和冷启动管道更高的最终性能，而现有管道收集和后处理的推理痕迹比RLT大几个数量级。此外，RLTs在训练更大规模的学生模型时保持其有效性，并且在零样本情况下应用于分布外任务时，解锁了RL推理框架的新效率和可重用性水平。

文章链接：

https://arxiv.org/pdf/2506.08388

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

零样本生成模型适应（ZSGM）的目标是仅使用文本指导而不依赖目标域的任何样本，将预训练的生成器适应到目标域。最近的 ZSGM 方法的核心是方向损失，它通过在视觉 - 语言模型（如 CLIP）的嵌入空间中对齐图像偏移量与文本偏移量来实现。然而，现有 ZSGM 方法的一个主要限制是，学习目标假设图像偏移量和文本偏移量在 CLIP 嵌入空间中完全对齐，这导致生成图像质量下降。本文做出了两项主要贡献。首先，受 NLP 中偏移量错位研究的启发，本文对多个大型公开可用数据集进行了实证研究，分析了 CLIP 嵌入空间中文本偏移量和图像偏移量之间的错位。研究发现，CLIP 嵌入空间中的偏移量错位与概念距离相关，即概念越接近，偏移量错位越小。其次，为了解决当前方法的局限性，本文提出了适应性迭代细化（AIR），这是首个基于对偏移量错位的新见解来提高目标域图像质量的 ZSGM 方法。通过定性、定量和用户研究，在 26 种实验设置中，AIR 方法一致地实现了 SOTA 性能。

文章链接：

https://arxiv.org/pdf/2506.10895

A Study on Individual Spatiotemporal Activity Generation Method Using MCP-Enhanced Chain-of-Thought Large Language Models

人类时空行为模拟对于城市规划及相关领域的研究至关重要，然而传统的基于规则和统计的方法面临着计算成本高、泛化能力有限和可扩展性差等显著限制。尽管大语言模型（LLMs）作为“世界模拟器”展现出巨大潜力，但在时空推理方面仍面临诸多挑战，包括空间认知能力有限、缺乏对物理约束的理解以及群体同质化倾向等。本文提出了一个将链式思维（CoT）推理与模型上下文协议（MCP）相结合的框架，以增强LLMs在模拟和生成与验证数据模式相符的时空行为方面的能力。该方法结合了通过五阶段认知框架进行类似人类的逐步推理以及通过六个专业MCP工具类别进行全面数据处理能力：时间管理、空间导航、环境感知、个人记忆、社会协作和经验评估。通过在上海陆家嘴地区的实验验证了该框架的有效性，涵盖了1000个生成样本。结果表明，该方法生成的样本与真实移动信号数据相符，不同基础模型在受控实验条件下生成质量得分范围为7.86到8.36。并行处理实验表明，在测试配置下，从2个进程扩展到12个进程时，每个样本的生成时间从1.30分钟降低到0.17分钟，从而证明了该框架大规模部署的潜力。本研究为将CoT推理与MCP相结合用于城市行为建模做出了贡献，推动了LLMs在城市计算中的应用，并为在数据受限环境中生成合成移动数据提供了实用方法。该框架为探索智能城市规划、交通预测、参与式城市设计等相关领域的潜在应用提供了基础。

文章链接：

https://arxiv.org/abs/2506.10853

LLM-Driven Personalized Answer Generation and Evaluation

在线学习因其灵活性和可及性而经历了快速增长。个性化，即适应个体学习者的需求，对于增强学习体验至关重要，尤其是在在线环境中。个性化的一个关键方面是为学习者提供针对其具体问题的定制化答案。因此，本文探索了大语言模型（LLMs）在为学习者的问题生成个性化答案方面的潜力，从而增强参与度并减轻教育工作者的工作负担。为了评估LLMs在此背景下的有效性，作者在StackExchange平台上进行了全面的研究，涵盖语言学习和编程两个不同领域。作者开发了一个框架和数据集，用于验证自动生成的个性化答案。随后，作者使用不同的策略（包括0-shot、1-shot和few-shot场景）生成个性化答案，并通过三种方法进行评估：1. BERTScore，2. LLM评估，3. 人类评估。研究结果表明，为LLMs提供来自学习者或类似学习者的期望答案示例，可以显著增强其为个体学习者定制回答的能力。

文章链接：

https://arxiv.org/pdf/2506.10829

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

长视频理解（LVU）对于当前的多模态大语言模型（MLLMs）来说是一个重大挑战，因为该任务本身复杂且受到上下文窗口的限制。人们普遍认为，解决LVU任务需要基础MLLMs具备扩展的上下文窗口、强大的视觉感知能力和熟练的领域专业知识。然而，本文通过引入VideoDeepResearch这一新颖的代理框架来挑战这一普遍观点。该方法仅依赖于一个纯文本的大推理模型（LRM），结合一个模块化的多模态工具包，包括多模态检索器和视觉感知器，这些工具在实践中都是现成可用的。对于每个LVU任务，系统通过推理制定问题解决策略，同时通过工具使用有选择地访问和利用必要的视频内容。作者在流行的LVU基准测试（包括MLVU、Video-MME和LVBench）上进行了广泛的实验。结果表明，VideoDeepResearch在现有MLLM基线上取得了显著改进，分别在MLVU（测试集）、LVBench和LongVideoBench上超过了之前的最佳水平9.6%、6.6%和3.9%。这些发现突出了代理系统在克服LVU问题关键挑战方面的潜力。

文章链接：

https://arxiv.org/pdf/2506.10821

OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems

大型语言模型（LLMs）在解决多样化任务中表现出色，但在通过学习以往反馈迭代优化复杂解决方案方面的能力尚未得到充分探索。为此，本文提出了OPT-BENCH，这是一个用于评估LLM代理在大规模搜索空间优化问题上的综合基准测试。OPT-BENCH包含20个来自Kaggle的真实世界机器学习任务和10个经典的NP问题，为评估LLM代理在迭代推理和解决方案改进方面的能力提供了多样化且具有挑战性的环境。为了实现严谨的评估，本文还引入了OPT-Agent，这是一个端到端的优化框架，通过生成、验证并利用历史反馈迭代改进解决方案，模拟人类在解决复杂问题时的推理过程。通过对来自6个模型家族的9个最先进的LLMs进行广泛的实验，本文分析了优化迭代次数、温度设置和模型架构对解决方案质量和收敛的影响。结果表明，整合历史上下文能够显著提升在机器学习和NP任务上的优化性能。所有数据集、代码和评估工具均已开源，以促进对LLM驱动优化和迭代推理的进一步研究。