在这里插入图片描述

SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation

➡️ 论文标题：SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation
➡️ 论文作者：Junda Wang, Yujan Ting, Eric Z. Chen, Hieu Tran, Hong Yu, Weijing Huang, Terrence Chen
➡️ 研究机构: United Imaging Intelligence, Manning College of Information and Computer Sciences, University of Massachusetts Amherst, Department of Medicine, University of Massachusetts Medical School, Miner School of Computer and Information Sciences, University of Massachusetts Lowell
➡️ 问题背景：多模态大语言模型（MLLMs）在医疗领域面临挑战，主要由于其在理解特定领域视觉特征方面的局限性。尽管在实验室环境中表现出色，但这些模型在实际应用中往往表现不佳，尤其是在处理复杂的医学图像和文本描述时。此外，高质量的标注医疗数据获取困难，进一步限制了这些模型的性能和可扩展性。
➡️ 研究动机：为了克服现有医疗多模态模型在实际应用中的局限性，研究团队提出了一种新的方法，通过构建SemiHVision数据集，结合人类标注和自动化增强技术，以提高模型的医学知识表示和诊断推理能力。此外，研究团队还开发了新的评估基准JAMA Clinical Challenge，以更准确地评估模型在实际临床任务中的表现。
➡️ 方法简介：研究团队构建了SemiHVision数据集，该数据集结合了人类标注和自动化增强技术，涵盖了多种医学影像模态（如X射线、CT、MRI等）。通过多模态检索系统，该数据集能够从OpenGuidelines和Eurorad等资源中检索相关指南和类似病例，生成高质量的图像标注和临床报告。此外，研究团队还设计了专门的医疗问答对，用于优化模型的诊断推理和医疗决策能力。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括SLAKE、VQA-RAD和JAMA Clinical Challenge。实验设计了不同的评估指标，以全面评估模型在传统基准和实际临床任务中的表现。实验结果表明，PMC-Cambrian-AN在多个任务上显著优于现有的公共医疗模型和通用模型，特别是在JAMA Clinical Challenge基准上，其表现尤为突出。

LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound

➡️ 论文标题：LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound
➡️ 论文作者：Xuechen Guo, Wenhao Chai, Shi-Yan Li, Gaoang Wang
➡️ 研究机构: ZJU-UIUC Institute, Zhejiang University, University of Washington, Zhejiang University School of Medicine Sir Run Run Shaw Hospital, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Model, MLLM）在视觉语言任务中展现出显著的能力，但现有的通用视觉语言模型（VLM）在医疗视觉问答（Med-VQA）任务中表现不佳，尤其是在处理细微的医学图像时。此外，现有的医疗多模态模型在处理数据冗余时也存在不足，这在临床场景中非常常见。
➡️ 研究动机：为了提高多模态大语言模型在医疗领域的适应性和鲁棒性，研究团队提出了一种细粒度的适应性VLM架构，通过参数高效的调优方法，增强模型对细微医学视觉语义的理解，并设计了自适应采样模块来处理医疗场景中的数据冗余问题。
➡️ 方法简介：研究团队提出了LLaVA-Ultra，这是一种针对中文医疗领域的大型语言和视觉助手。该模型通过融合细粒度的视觉编码器（如Segment Anything Model, SAM）和CLIP编码器，增强了视觉特征的提取能力。此外，团队还设计了自适应采样策略，通过特征评分和注意力评分来筛选有效的图像信息，以提高模型在复杂医疗场景中的表现。
➡️ 实验设计：研究团队利用从医院数据库中收集的大规模中文超声多模态数据集，生成了专业的多模态指令数据，用于模型的微调。实验在三个公开的医疗视觉问答（Med-VQA）数据集上进行，评估了LLaVA-Ultra在不同任务中的性能。实验结果表明，LLaVA-Ultra在多个指标上超越了现有的最先进模型。

Modality-Fair Preference Optimization for Trustworthy MLLM Alignment

➡️ 论文标题：Modality-Fair Preference Optimization for Trustworthy MLLM Alignment
➡️ 论文作者：Songtao Jiang, Yan Zhang, Ruizhe Chen, Yeying Jin, Zuozhu Liu
➡️ 研究机构: 浙江大学、新加坡国立大学
➡️ 问题背景：直接偏好优化（Direct Preference Optimization, DPO）在对齐大型语言模型（LLMs）方面非常有效，但在应用于多模态模型（MLLMs）时，往往倾向于文本信息而忽视图像信息，导致输出不可靠和视觉幻觉。视觉幻觉是指模型生成的文本不准确地描述视觉内容或引用不存在的对象，这在视觉问答（VQA）等任务中尤为关键。
➡️ 研究动机：现有的偏好优化方法虽然在减少幻觉方面取得了一些进展，但往往忽视了文本和图像模态偏好优化之间的平衡。为了平衡这两种模态的偏好优化，并确保文本级别的优化能够结合图像偏好，研究团队提出了模态公平偏好优化（Modality-Fair Preference Optimization, MFPO）方法。
➡️ 方法简介：研究团队首先构建了图像偏好数据，以整合图像级别的奖励函数。通过提取关键词并映射到相应的图像区域，生成细粒度的噪声图像作为被拒绝的偏好数据。然后，设计了一个学习目标，确保模型在捕捉文本和图像偏好时保持高质量的输出。最后，采用多阶段对齐方法来稳定训练并提高跨模态的学习效果。
➡️ 实验设计：在多个公开数据集上进行了实验，包括Object HalBench、MMHalBench和AMBER。实验设计了不同因素（如图像噪声的强度和位置）的变化，以及不同类型的评估指标（如幻觉率、覆盖率和认知幻觉率），以全面评估模型在不同条件下的表现。实验结果表明，MFPO显著提高了MLLMs的可信度，尤其是在减少幻觉方面表现突出。

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

➡️ 论文标题：Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining
➡️ 论文作者：Han Huang, Yuqi Huo, Zijia Zhao, Haoyu Lu, Shu Wu, Bingning Wang, Qiang Liu, Weipeng Chen, Liang Wang
➡️ 研究机构: University of Chinese Academy of Sciences (UCAS)、Baichuan Inc.、New Laboratory of Pattern Recognition (NLPR)、Institute of Automation, Chinese Academy of Sciences (CASIA)、Gaoling School of Artificial Intelligence, Renmin University of China
➡️ 问题背景：多模态大语言模型（MLLMs）通过整合视觉和文本模态，显著扩展了人工智能的能力。然而，训练MLLMs的关键因素之一是多模态预训练数据集中图像-文本对的质量。现有的基于过滤的数据质量增强方法通常会因为图像和文本之间的语义对齐不足而丢弃大量高质量图像数据，导致数据利用效率低下和扩展性差。
➡️ 研究动机：现有的过滤方法在提高数据质量的同时，不可避免地丢弃了大量高质量图像。为了在保持高数据质量的同时最大化数据量，研究团队提出了自适应图像-文本质量增强器（AITQE），旨在动态评估和增强图像-文本对的质量，从而在不显著改变文本分布的情况下，最小化调整文本，以保留数据量并提高质量。
➡️ 方法简介：研究团队提出了AITQE模型，该模型通过文本重写机制对低质量的图像-文本对进行增强，并引入了对比样本学习策略，通过在训练过程中故意纳入低质量样本，以增强模型的评估能力。与现有方法相比，AITQE最小化调整文本，以保留数据量并提高质量，同时促进预训练数据的高效探索。
➡️ 实验设计：实验在多个基准数据集上进行，包括SEED-Bench-2、MME、AMBER、OKVQA、VQAv2、DocVQA、TextVQA和Textcaps。实验设计了不同数据集的随机采样和AITQE增强数据的对比分析，以全面评估模型在不同条件下的表现。实验结果表明，AITQE在多个基准测试中超越了现有方法，有效地利用了原始数据，并且随着数据量的增加，表现更加稳定。

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

➡️ 论文标题：LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
➡️ 论文作者：Yuxuan Cai, Jiangning Zhang, Haoyang He, Xinwei He, Ao Tong, Zhenye Gan, Chengjie Wang, Xiang Bai
➡️ 研究机构: 华中科技大学、浙江大学、腾讯优图实验室、华中农业大学
➡️ 问题背景：大型语言模型（LLM）的成功促使研究人员探索多模态大型语言模型（MLLM），以实现统一的视觉和语言理解。然而，MLLM的模型规模和计算复杂度限制了其在资源受限环境中的应用。小型MLLM（s-MLLM）虽然减少了计算需求，但性能显著下降。为了解决这些问题，研究团队提出了一种新的框架LLaVA-KD，通过知识蒸馏技术将大型MLLM（l-MLLM）的知识转移到小型MLLM。
➡️ 研究动机：现有的研究主要通过优化模型结构和提高训练数据质量来提升小型MLLM的性能，但这些方法通常需要复杂的模型结构或多个教师模型。本研究旨在通过优化训练策略，而不改变模型架构，来显著提升小型MLLM的性能。
➡️ 方法简介：研究团队提出了一个三阶段的训练方案，包括蒸馏预训练（DPT）、监督微调（SFT）和蒸馏微调（DFT）。DPT阶段通过多模态蒸馏（MDist）和关系蒸馏（RDist）来对齐视觉和文本特征；SFT阶段通过监督学习初始化模型的推理和指令跟随能力；DFT阶段进一步通过MDist和RDist将大型MLLM的能力转移到小型MLLM。
➡️ 实验设计：研究团队在五个流行的多模态基准数据集上进行了实验，包括VQAv2、VizWiz、MMB、GQA和POPE。实验设计了不同的训练阶段和蒸馏策略，以全面评估LLaVA-KD的有效性和效率。实验结果表明，LLaVA-KD在模型规模为1B参数的情况下，显著超越了现有的大型MLLM模型，如BLIP2-13B和InstructBLIP-7B。