在这里插入图片描述

Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE

➡️ 论文标题：Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
➡️ 论文作者：Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu
➡️ 研究机构: 清华大学电子工程系、北京邮电大学人工智能学院、清华大学人工智能学院
➡️ 问题背景：多模态大语言模型（MLLMs）在多种视觉和语言任务中展现了卓越的能力。然而，在医疗领域构建统一的多任务学习MLLMs仍然是一个棘手的挑战。特别是在多模态多任务优化中，任务之间的冲突和数据不平衡会导致模型性能下降。这种问题在医疗领域尤为严重，因为医疗任务和模态高度专业化和多样化。
➡️ 研究动机：现有的研究主要集中在改进MLLMs的语言模型组件，而忽视了连接不同模态的连接器。为了缓解多任务学习中的“拉锯战”问题，研究团队提出了一种新的医疗通用基础模型——Uni-Med，该模型通过引入连接器混合专家（CMoE）模块，有效对齐视觉和语言嵌入空间，从而减少任务冲突并提高任务协同。
➡️ 方法简介：Uni-Med模型由通用视觉特征提取模块、CMoE模块和大语言模型（LLM）组成。CMoE模块包含多个投影专家和一个软路由网络，能够自适应地最小化任务冲突并最大化任务协同。通过在不同任务和数据集上进行实验，研究团队验证了CMoE的有效性，并提供了关于“拉锯战”问题优化的详细解释。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括视觉问答（VQA）、报告生成（RG）、指代表达理解（REC）、指代表达生成（REG）和图像分类（CLS）等任务。实验设计了不同的压缩率和路由策略，以评估模型在不同条件下的性能。实验结果表明，Uni-Med在多个任务上取得了显著的性能提升，平均性能提升高达8%。

EAGLE: Egocentric AGgregated Language-video Engine

➡️ 论文标题：EAGLE: Egocentric AGgregated Language-video Engine
➡️ 论文作者：Jing Bi, Yunlong Tang, Luchuan Song, Ali Vosoughi, Nguyen Nguyen, Chenliang Xu
➡️ 研究机构: University of Rochester
➡️ 问题背景：第一人称视角（egocentric）视频分析的快速发展为理解人类活动和意图提供了新的视角。然而，任务的碎片化，如动作识别、程序学习和时刻检索等，加上不一致的注释和孤立的模型开发，阻碍了对视频内容的全面理解。
➡️ 研究动机：为了应对上述挑战，研究团队引入了EAGLE（Egocentric AGgregated Language-video Engine）模型和EAGLE-400K数据集，旨在提供一个统一的框架，整合多种第一人称视频理解任务。EAGLE-400K是首个大规模指令调优数据集，专门针对第一人称视频，包含400K多样化的样本，以增强从活动识别到程序知识学习的广泛任务。此外，EAGLE模型设计用于有效捕捉空间和时间信息，旨在为第一人称视频理解提供强大的支持。
➡️ 方法简介：研究团队提出了EAGLE-400K数据集，该数据集整合了Ego4D、EPIC-KITCHENS和PTA（Perception-driven Task Assistance）数据集，通过指令调优提供统一的任务接口。EAGLE模型通过集成Adapter增强了其空间和时间推理能力。此外，研究团队还提出了新的评估指标，以全面评估当前流行的多模态大语言模型（MLLMs）在第一人称视频理解中的表现。
➡️ 实验设计：研究团队在EAGLE-400K数据集上进行了广泛的实验，包括活动识别、程序知识学习等任务。实验设计了不同的任务类型和评估指标，以全面评估EAGLE模型的性能。实验结果表明，EAGLE在多个任务上均优于现有的模型，特别是在平衡任务特定理解和整体视频解释方面表现出色。

A Survey on Multimodal Benchmarks: In the Era of Large AI Models

➡️ 论文标题：A Survey on Multimodal Benchmarks: In the Era of Large AI Models
➡️ 论文作者：Lin Li, Guikun Chen, Hanrong Shi, Jun Xiao, Long Chen
➡️ 研究机构: 香港科技大学 (HKUST)、浙江大学 (Zhejiang University)
➡️ 问题背景：多模态大语言模型（MLLMs）的快速发展显著提升了人工智能在理解和生成多模态内容方面的能力。然而，与这些模型的架构和训练方法相比，用于评估这些模型的基准测试的发展相对滞后。现有的基准测试往往侧重于增加数据量或类别数量，难以全面评估MLLMs的多方面能力。
➡️ 研究动机：为了填补这一空白，研究团队系统地回顾了211个评估MLLMs的基准测试，涵盖了理解、推理、生成和应用四个核心领域。研究旨在提供任务设计、评估指标和数据集构建的详细分析，为未来的MLLM研究提供全面的概述，并指出有前景的研究方向。
➡️ 方法简介：研究团队提出了一个系统的方法，通过构建一个全面的多模态基准测试数据库，评估MLLMs在不同任务和应用场景中的表现。该数据库包括了从低级感知到高级理解的各种任务，以及多语言和多模态环境下的评估。
➡️ 实验设计：研究在多个公开数据集上进行了实验，包括视觉感知、上下文理解、视频理解、音频理解、3D理解等多个领域的任务。实验设计了不同类型的输入（如单模态、多模态、长文本、多图像等），以及不同应用场景（如医疗、机器人、设计、社交媒体等），以全面评估MLLMs的多方面能力。

Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing

➡️ 论文标题：Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing
➡️ 论文作者：Huthaifa I. Ashqar, Ahmed Jaber, Taqwa I. Alhadidi, Mohammed Elhenawy
➡️ 研究机构: 阿拉伯美国大学、哥伦比亚大学、布达佩斯技术与经济大学、阿曼亚尔大学、昆士兰科技大学
➡️ 问题背景：随着城市化和人口增长，交通运输系统变得越来越复杂，准确的物体检测对于提高交通安全、效率和规划至关重要。传统的物体检测方法依赖于单一模态数据，如图像或文本，存在效率和准确性上的局限性。多模态大型语言模型（MLLMs）和大型视觉模型（VLMs）的出现，为解决这些问题提供了新的可能，它们能够处理和分析来自多种来源的数据，提供更全面的环境理解。
➡️ 研究动机：尽管MLLMs和VLMs在物体检测方面展现出巨大潜力，但它们在交通运输领域的应用仍处于探索阶段。本研究旨在全面回顾和实证评估MLLMs在交通运输物体检测中的应用，探讨其优势和局限性，为未来的研究和发展提供方向。
➡️ 方法简介：研究团队首先对MLLMs和VLMs在交通运输物体检测中的应用进行了全面回顾，分析了现有技术的优势和局限。随后，提出了一个结构化的分类法，用于描述基于MLLMs的端到端物体检测方法。最后，通过三个实际的交通运输问题（道路安全属性提取、安全关键事件检测、热图像的视觉推理）进行了实证测试，以评估MLLMs的性能。
➡️ 实验设计：实验使用了多个公开数据集，包括KITTI、COCO等，以及一些定制数据集。实验设计了不同的数据类型（如图像、文本、视频）和模型（如GPT-4、YOLOv8、Vision Transformer），以全面评估MLLMs在不同条件下的表现。实验结果不仅评估了模型的准确性，还探讨了模型在实时性能、细粒度识别、上下文理解等方面的能力和局限。

Align $^2$ LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation

➡️ 论文标题：Align $^2$ LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation
➡️ 论文作者：Hongzhe Huang, Jiang Liu, Zhewen Yu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li, Hao Jiang, Haoyuan Li, Yueting Zhuang
➡️ 研究机构: 浙江大学、阿里巴巴
➡️ 问题背景：多模态大语言模型（MLLMs）如LLaVA系列模型，通过大规模机器生成的指令跟随数据进行调优，取得了显著进展。然而，这种自动指令收集管道无意中引入了数据质量的显著变异性，尤其是在视觉-语言指令跟随数据稀缺的情况下，当代MLLMs倾向于利用数据重格式化方法，这可能导致次优的多模态指令跟随能力。
➡️ 研究动机：现有的合成指令生成范式可能导致不准确的视觉-语言对齐和内部语言差距，这影响了MLLMs的性能。为了优化合成指令生成，研究团队提出了一种新的数据整理方法，通过逐步对齐人类专家和预训练LLM的偏好，来解决这些问题。
➡️ 方法简介：研究团队提出了一个名为Align2LLaVA的数据整理范式，包括三个步骤：1) 人类知识对齐，通过收集人类偏好指令并训练奖励模型来评估和过滤视觉指令；2) LLM特征对齐，利用内部LLM调整软格式视觉指令的写作风格，确保原始语义不变；3) 通过两阶段过滤过程，从大规模合成视觉指令数据中筛选出高质量的指令。
➡️ 实验设计：研究团队将Align2LLaVA应用于158K合成指令数据集，生成了一个压缩后的数据集Align2LLaVA-Instruct，该数据集包含30%的原始问题和30%的剩余答案，仅为原数据集的9%。使用Align2LLaVA-Instruct结合LLaVA-1.5-665K数据集的标题和短VQA部分对LLaVA-1.5模型进行微调，结果显示在8个基准测试中，模型性能与使用完整指令数据训练的模型相当或更优。