在这里插入图片描述

Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations

➡️ 论文标题：Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations
➡️ 论文作者：Miyu Goko, Motonari Kambara, Daichi Saito, Seitaro Otsuki, Komei Sugiura
➡️ 研究机构: Keio University, Japan
➡️ 问题背景：当前的任务成功预测模型在处理开放词汇操作任务时，尤其是在基于指令句子和操作前后自拍图像的情况下，往往无法准确理解对象的详细特征和位置的细微变化。这导致了在任务成功预测上的性能不佳。
➡️ 研究动机：为了提高任务成功预测的准确性，研究团队提出了一种新的方法——Contrastive λ-Repformer，该方法通过多级对齐表示来预测桌面开放词汇操作任务的成功或失败。研究旨在通过整合视觉信息、自然语言对齐特征和通过自然语言结构化的特征，提高模型对操作前后图像变化的理解能力。
➡️ 方法简介：研究团队提出了Contrastive λ-Repformer，该方法通过λ-Representation Encoder生成包含三种关键特征的多级对齐表示：保留局部图像信息的特征、与自然语言对齐的特征、以及通过自然语言结构化的特征。然后，通过Contrastive λ-Representation Decoder计算两个图像表示之间的差异，以评估这些差异与指令句子的对齐情况，从而预测任务的成功或失败。
➡️ 实验设计：研究在SP-RT-1数据集和SP-HSR基准上进行了实验。SP-RT-1数据集基于大规模标准数据集RT-1构建，包含约1,000个场景和30个对象。SP-HSR基准则在物理环境中使用移动操作机器人进行验证。实验评估了不同方法在任务成功预测上的性能，包括UNITER、InstructBLIP、GPT-4V和Gemini等基线方法。实验结果表明，Contrastive λ-Repformer在两个数据集上均取得了最佳性能，显著优于其他基线方法。

FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks

➡️ 论文标题：FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks
➡️ 论文作者：Peiran Wu, Che Liu, Canyu Chen, Jun Li, Cosmin I. Bercea, Rossella Arcucci
➡️ 研究机构: University of Bristol、Imperial College London、Illinois Institute of Technology、Technische Universität München
➡️ 问题背景：多模态大语言模型（MLLMs）在医疗任务中取得了显著进展，如视觉问答（VQA）和报告生成（RG）。然而，这些模型在不同人口统计群体中的公平性问题尚未得到充分探索，尽管在医疗保健中这一点至关重要。现有医疗多模态数据集缺乏人口统计多样性，使得公平性评估变得复杂。
➡️ 研究动机：为了填补这一空白，研究团队提出了FMBench，这是第一个专门设计用于评估MLLMs在医疗多模态任务中公平性的基准。FMBench旨在通过包含详细的人口统计属性（种族、性别、语言和民族）的数据集，全面评估MLLMs在VQA和RG任务中的表现和公平性。
➡️ 方法简介：研究团队构建了一个包含30,000个医疗VQA对和10,000个医疗图像-报告对的数据集，每个样本都标注了详细的人口统计属性。此外，他们提出了一个新的评估指标——公平性感知性能（FAP），用于评估MLLMs在不同人口统计群体中的公平表现。FAP不仅考虑了模型的整体性能，还衡量了不同群体之间的性能差异。
➡️ 实验设计：研究团队在八个最先进的开源MLLMs上进行了零样本评估，这些模型的参数规模从7B到26B不等，包括通用和医疗专用模型。实验使用了传统的词级评估指标（如BLEU、METEOR、ROUGE等）和基于LLM的评估指标（如GREEN分数和LLM评分），以及新提出的FAP指标。实验结果表明，传统的词级评估指标在开放形式的多模态任务中存在不足，且所有MLLMs在不同人口统计属性上的表现不一致，显示出潜在的公平性风险。

Visual Perception in Text Strings

➡️ 论文标题：Visual Perception in Text Strings
➡️ 论文作者：Qi Jia, Xiang Yue, Shanshan Huang, Ziheng Qin, Yizhu Liu, Bill Yuchen Lin, Yang You
➡️ 研究机构: National University of Singapore、Carnegie Mellon University、Guangzhou University、Meituan、Allen Institute for AI
➡️ 问题背景：当前的大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在处理文本和图像信息时表现出色。然而，对于嵌入在文本字符串中的视觉语义的理解，这些模型的能力尚显不足。ASCII艺术作为一种典型的文本字符串中的视觉信息载体，能够同时以文本和图像形式表达相同的内容，成为分析现代LLMs和MLLMs在模态无关视觉理解能力上的重要工具。
➡️ 研究动机：尽管人类在ASCII艺术识别任务上可以达到接近100%的准确率，但现有的LLMs和MLLMs在这一任务上的表现远不如人意。研究团队通过构建一个详细的分类树和收集训练集，旨在全面评估这些模型在ASCII艺术识别任务上的表现，揭示模型在处理模态无关视觉信息时的局限性，并探索通过监督微调等方法提升模型性能的可能性。
➡️ 方法简介：研究团队构建了一个名为ASCIIEVAL的测试集，包含359个概念，用于评估模型在ASCII艺术识别任务上的表现。此外，还收集了一个包含约10,000个数据点的训练集ASCIITUNE，以进一步激发模型的视觉感知能力。通过将每个ASCII艺术转换为文本字符串、图像或同时使用两种模态作为输入，研究团队评估了数十个现有的LLMs和MLLMs，并对代表性开源模型进行了微调。
➡️ 实验设计：实验在ASCIIEVAL数据集上进行，评估了不同模型在仅文本输入、仅图像输入和同时使用文本和图像输入三种条件下的表现。实验设计了不同类型的ASCII艺术（如字符数量、抽象程度等），以及不同模型在不同输入模态下的表现，以全面评估模型的视觉感知能力和模态融合能力。

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

➡️ 论文标题：Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks
➡️ 论文作者：Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
➡️ 研究机构: University of Notre Dame、Tencent AI Seattle Lab、UIUC
➡️ 问题背景：当前的多模态大型语言模型（Multimodal Large Language Models, MLLMs）在处理涉及文本丰富的单图像任务方面表现出色，但在处理涉及多个文本丰富的图像的任务时存在挑战。这些任务不仅要求理解单个图像的内容，还需要跨多个视觉输入进行推理，以捕捉逻辑流程。然而，现有的MLLMs在处理这类任务时面临两个主要挑战：（1）缺乏高质量的文本丰富多图像场景的指令调优数据集；（2）在图像分辨率与视觉特征序列长度之间难以平衡。
➡️ 研究动机：为了克服上述挑战，研究团队提出了LEOPARD，一个专门设计用于处理涉及多个文本丰富图像的多模态大型语言模型。LEOPARD通过构建一个包含约一百万高质量多模态指令调优数据的数据集，以及开发一个自适应高分辨率多图像编码模块，来动态优化视觉序列长度的分配，从而在保持视觉细节的同时，处理多个高分辨率图像。
➡️ 方法简介：LEOPARD的数据集LEOPARD-INSTRUCT包含925K实例，其中739K实例专门设计用于文本丰富的多图像场景。该数据集涵盖了三个关键领域：多页文档、多图表和多表格、网页轨迹。此外，LEOPARD引入了一个自适应高分辨率多图像编码模块，该模块根据输入图像的原始宽高比和分辨率，动态优化视觉序列长度的分配，并通过像素洗牌技术无损压缩长视觉特征序列，以适应模型的最大序列长度限制。
➡️ 实验设计：研究团队在13个视觉语言基准数据集上进行了实验，评估了LEOPARD在多个方面的表现。实验结果表明，LEOPARD在5个文本丰富的多图像基准测试中显著优于最佳的开源MLLM，平均提高了9.61分。此外，LEOPARD在文本丰富的单图像任务和通用领域的视觉语言基准测试中也表现出色，与最先进的MLLMs相当。进一步的消融研究表明，LEOPARD的指令调优数据集和自适应高分辨率编码模块对其性能提升起到了关键作用。

From Text to Multimodality: Exploring the Evolution and Impact of Large Language Models in Medical Practice

➡️ 论文标题：From Text to Multimodality: Exploring the Evolution and Impact of Large Language Models in Medical Practice
➡️ 论文作者：Qian Niu, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Lawrence KQ Yan, Yichao Zhang, Caitlyn Heqi Yin, Cheng Fei, Junyu Liu, Benji Peng, Tianyang Wang, Yunze Wang, Silin Chen, Ming Liu
➡️ 研究机构: Kyoto University、Georgia Institute of Technology、National Taiwan Normal University、Indiana University、Hong Kong University of Science and Technology、The University of Texas at Dallas、University of Wisconsin-Madison、Cornell University、University of Liverpool、University of Edinburgh、Zhejiang University、Purdue University
➡️ 问题背景：随着大数据时代的到来，医疗领域面临着前所未有的数据爆炸。电子健康记录、医学影像、基因组测序和可穿戴传感器等生成的大量信息，超出了人类高效分析和解释的能力。大型语言模型（LLMs）作为人工智能的重要力量，正在引领这一挑战的解决。LLMs最初主要集中在文本任务上，但医学的多模态特性要求更灵活的模型，这催生了多模态大型语言模型（MLLMs）的出现。这些模型能够处理和整合来自不同模态的信息，如文本、图像和音频，为医疗实践提供了更全面的洞察。
➡️ 研究动机：MLLMs在医疗实践中的应用潜力巨大，包括临床决策支持、医学影像分析、患者参与和沟通、以及研究开发。然而，这些模型的实施面临数据限制、技术障碍和伦理考虑等挑战。本综述旨在探讨MLLMs在医疗领域的当前应用，分析其架构、能力和局限性，并识别未来研究的关键领域，以指导MLLMs在医疗实践中的负责任和有效集成。
➡️ 方法简介：研究团队通过文献回顾和案例分析，系统地评估了MLLMs在医疗领域的应用。研究涵盖了MLLMs的架构、多模态对齐方法、数据驱动方法和工具辅助方法，以及在临床决策支持、医学影像、患者参与和沟通、研究开发等方面的应用。此外，研究还探讨了数据稀缺性、偏见、伦理和监管考虑等挑战。
➡️ 实验设计：研究通过分析现有的MLLMs在医疗领域的应用案例，评估了这些模型在不同医疗任务中的表现。实验设计考虑了模型在数据整合、模态对齐、知识集成等方面的能力，以及在临床决策支持、医学影像分析、患者参与和沟通、研究开发等领域的具体应用。研究还讨论了模型的可解释性、公平性和伦理问题，以及未来研究的方向，如数据集开发、模态对齐方法的改进和伦理指南的建立。