在这里插入图片描述

Enhancing Advanced Visual Reasoning Ability of Large Language Models

➡️ 论文标题：Enhancing Advanced Visual Reasoning Ability of Large Language Models
➡️ 论文作者：Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai
➡️ 研究机构: The University of Sydney
➡️ 问题背景：当前的视觉-语言模型（Vision-Language Models, VLMs）在视觉感知任务中表现出色，但在复杂的视觉推理任务中存在局限性。相反，大型语言模型（Large Language Models, LLMs）在文本推理方面表现出色，但缺乏视觉感知能力。为了弥补这一差距，研究团队提出了一种新的方法，即复杂视觉推理大型语言模型（Complex Visual Reasoning Large Language Models, CVR-LLM），旨在结合VLMs的视觉感知能力和LLMs的推理能力。
➡️ 研究动机：现有的VLMs在复杂视觉推理任务中表现不佳，而LLMs虽然在文本推理方面强大，但缺乏视觉理解能力。为了克服这些局限，研究团队提出了一种新的框架CVR-LLM，通过将图像转换为详细的上下文感知描述，并利用LLMs的文本知识进行准确预测，从而提高模型在复杂视觉推理任务中的表现。
➡️ 方法简介：研究团队提出了一种双循环自优化方法，用于生成上下文感知的图像描述（Context-Aware Image Descriptions, CaID），并通过多模态上下文学习（Complex Visual Reasoning In-Context Learning, CVR-ICL）策略增强LLMs的上下文理解和推理能力。此外，研究团队还引入了链式比较（Chain-of-Comparison, CoC）技术，用于系统地分析和量化不同预测结果的各个方面，以进行全面评估。
➡️ 实验设计：研究团队在五个复杂视觉推理任务的数据集上进行了实验，包括WinoGAViL、Winoground、Whoops、VCR和NYCCC。实验设计了不同的任务场景，以评估CVR-LLM在不同任务中的表现。实验结果表明，CVR-LLM在所有五个任务中均达到了最先进的性能。此外，消融研究和比较分析进一步验证了每个模块的有效性和整个方法的优越性。

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

➡️ 论文标题：Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
➡️ 论文作者：Yan Shu, Zheng Liu, Peitian Zhang, Minghao Qin, Junjie Zhou, Zhengyang Liang, Tiejun Huang, Bo Zhao
➡️ 研究机构: Shanghai Jiaotong University、Beijing Academy of Artificial Intelligence、Renmin University of China、Chinese Academy of Sciences、Beijing University of Posts and Telecommunications、Peking University
➡️ 问题背景：长视频理解对当前的多模态大语言模型（MLLMs）提出了重大挑战，主要由于这些模型的上下文长度有限，处理长视频时计算和内存成本高昂。尽管一些现有方法试图通过减少视觉编码器生成的令牌数量来解决这一问题，但这些方法往往导致视觉信息的严重损失，限制了模型对长视频的细粒度感知能力。
➡️ 研究动机：为了克服现有方法的局限性，研究团队提出了一种新的长视频理解方法——Video-XL。该方法利用MLLMs的内在键值（KV）稀疏化能力，通过引入视觉摘要令牌（VST）来生成长视频的紧凑表示，旨在提高模型处理长视频的能力，同时减少计算和内存成本。
➡️ 方法简介：Video-XL通过VST模块将视频的不同区间压缩为紧凑的KV表示，这些KV表示在后续编码中作为代理，而其他视觉令牌的KV则被卸载，从而显著减少了处理整个视频的成本。此外，研究团队还提出了动态压缩策略，根据视频不同部分的信息密度自定义压缩粒度，以最小化信息损失。VST模块通过指令微调进行训练，采用课程学习和复合数据策划方法，以克服训练数据稀缺的问题。
➡️ 实验设计：研究团队在多个流行的长视频理解基准上评估了Video-XL的性能，包括MLVU、Video-MME、VNBench、LongVideoBench等。实验设计了不同压缩比（如2×、4×、8×、16×）的变化，以及不同类型的视频任务（如检索、排序、计数等），以全面评估模型的压缩质量和成本效益。实验结果表明，Video-XL在多个基准上均表现出色，不仅在长视频理解能力上超越了现有方法，还在高压缩比下保持了高性能，同时实现了卓越的成本效益。

Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond

➡️ 论文标题：Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond
➡️ 论文作者：Hong Chen, Xin Wang, Yuwei Zhou, Bin Huang, Yipeng Zhang, Wei Feng, Houlun Chen, Zeyang Zhang, Siao Tang, Wenwu Zhu
➡️ 研究机构: Tsinghua University
➡️ 问题背景：多模态生成AI（Multi-modal Generative AI）近年来在学术界和工业界受到了越来越多的关注。特别是，大型语言模型（LLMs）和扩散模型（Diffusion Models）的出现，如OpenAI的GPT-4V和Sora，对多模态理解和生成产生了重大影响。GPT-4V通过生成相关文本实现了对视觉输入的理解，而Sora则通过文本输入生成视觉信号。这引发了是否可以建立一个统一的多模态生成模型，同时实现理解和生成的问题。
➡️ 研究动机：当前的多模态生成AI主要分为两大类：多模态大型语言模型（MLLMs）和扩散模型。MLLMs如GPT-4V在多模态理解方面表现出色，而扩散模型如Sora在视觉生成方面表现出色。研究团队旨在探讨是否可以建立一个统一的多模态生成模型，以及该模型应采用自回归还是扩散概率建模，以及应使用密集架构还是专家混合（MoE）架构来更好地支持生成和理解两个目标。
➡️ 方法简介：研究团队首先对现有的MLLMs和多模态扩散模型进行了详细的综述，包括它们的概率建模过程、多模态架构设计和高级应用。然后，基于这些讨论，提出了对统一多模态生成AI框架的见解，该框架旨在同时实现理解和生成。此外，研究团队还总结了现有的大规模多模态数据集，以支持未来模型的预训练。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括图像/视频-语言任务。实验设计了不同的因素（如模态交互策略、模型架构等），以全面评估模型在不同条件下的表现。研究团队还提出了未来的研究方向，包括概率建模的选择、模型架构的设计以及多模态数据集的构建等。

Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation

➡️ 论文标题：Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation
➡️ 论文作者：Manu Gaur, Darshan Singh S, Makarand Tapaswi
➡️ 研究机构: CVIT, IIIT Hyderabad
➡️ 问题背景：当前的多模态大语言模型（MLLMs）在图像理解、视觉问答和指令跟随等多模态任务中表现出色。然而，现有的评估基准存在强烈的语言偏见，无法准确评估这些模型的视觉理解能力。这促使研究团队探索更视觉中心的模型评估方法。
➡️ 研究动机：现有的评估方法，如视觉问答（VQA），虽然能够可靠地检查模型的特定视觉能力，但通常通过多项选择题的形式进行，这使得模型更容易选择答案而非生成答案。为了更全面地评估MLLMs的细粒度视觉理解能力，研究团队提出了一种新的评估框架，即D3（Detect, Describe, Discriminate），要求模型独立检测并描述两个极其相似的图像之间的细微差异。
➡️ 方法简介：研究团队构建了D3基准，包含247对高度相似的图像，每对图像仅在某个特定的视觉概念上有所不同。对于每对图像，模型需要：(1) 检测视觉差异；(2) 描述目标图像，使其能够区分干扰图像。通过自检索（self-retrieval）方法，评估模型生成的描述是否能够准确地检索到目标图像。
➡️ 实验设计：研究团队在D3基准上评估了多个开源和闭源的MLLMs。实验设计了不同的视觉差异点（如状态、位置、场景、方向、相机视角和杂乱程度），以全面评估模型在不同条件下的表现。实验结果表明，当前的MLLMs在捕捉细粒度视觉差异方面存在显著困难，尤其是开源模型的表现甚至不如随机猜测。

Visual Prompting in Multimodal Large Language Models: A Survey

➡️ 论文标题：Visual Prompting in Multimodal Large Language Models: A Survey
➡️ 论文作者：Junda Wu, Zhehao Zhang, Yu Xia, Xintong Li, Zhaoyang Xia, Aaron Chang, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ruiyi Zhang, Subrata Mitra, Dimitris N. Metaxas, Lina Yao, Jingbo Shang, Julian McAuley
➡️ 研究机构: UC San Diego、Dartmouth College、Rutgers University、UC Los Angeles、Adobe Research、The University of New South Wales、CSIRO’s Data61
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）通过增强预训练的大语言模型（LLMs）的视觉能力，实现了对复杂多模态任务的视觉理解和推理。然而，传统的文本提示方法在描述和指定视觉元素时存在局限性，导致视觉幻觉和语言偏差等问题。近年来，视觉提示方法作为一种新的范式出现，补充了文本提示，实现了对多模态输入的更细粒度和像素级别的指令。
➡️ 研究动机：尽管视觉提示方法在增强MLLMs的视觉能力方面取得了成功，但一些研究表明，MLLMs可能会与视觉提示不一致，这主要是由于预训练阶段缺乏多样化的视觉提示数据。这种不一致可能导致模型忽视或误解某些视觉提示，从而引发幻觉问题。因此，本文旨在总结现有的视觉提示方法，探讨如何通过模型训练和上下文学习方法来对齐视觉提示与MLLMs的感知和推理能力，以实现更可控的组合推理。
➡️ 方法简介：本文首次全面综述了MLLMs中的视觉提示方法，包括视觉提示的分类、提示生成、组合推理和提示学习。文章详细介绍了各种视觉提示生成技术，以及这些生成的提示如何用于引导MLLMs的视觉感知和推理，从而实现更可控的组合推理，帮助防止幻觉和语言偏差问题。
➡️ 实验设计：本文没有具体描述实验设计，而是通过文献综述的方式，总结了现有的视觉提示方法在模型训练、微调、指令调优和上下文学习中的应用，旨在解决模型对视觉提示的误解问题，并提出策略以实现更可控的组合推理。