在这里插入图片描述

SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation

➡️ 论文标题:SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation
➡️ 论文作者:Junda Wang, Yujan Ting, Eric Z. Chen, Hieu Tran, Hong Yu, Weijing Huang, Terrence Chen
➡️ 研究机构: United Imaging Intelligence, Manning College of Information and Computer Sciences, University of Massachusetts Amherst, Department of Medicine, University of Massachusetts Medical School, Miner School of Computer and Information Sciences, University of Massachusetts Lowell
➡️ 问题背景:多模态大语言模型(MLLMs)在医疗领域面临挑战,主要由于其在理解特定领域视觉特征方面的局限性。尽管在实验室环境中表现出色,但这些模型在实际应用中往往表现不佳,尤其是在处理复杂的医学图像和文本描述时。此外,高质量的标注医疗数据获取困难,进一步限制了这些模型的性能和可扩展性。
➡️ 研究动机:为了克服现有医疗多模态模型在实际应用中的局限性,研究团队提出了一种新的方法,通过构建SemiHVision数据集,结合人类标注和自动化增强技术,以提高模型的医学知识表示和诊断推理能力。此外,研究团队还开发了新的评估基准JAMA Clinical Challenge,以更准确地评估模型在实际临床任务中的表现。
➡️ 方法简介:研究团队构建了SemiHVision数据集,该数据集结合了人类标注和自动化增强技术,涵盖了多种医学影像模态(如X射线、CT、MRI等)。通过多模态检索系统,该数据集能够从OpenGuidelines和Eurorad等资源中检索相关指南和类似病例,生成高质量的图像标注和临床报告。此外,研究团队还设计了专门的医疗问答对,用于优化模型的诊断推理和医疗决策能力。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括SLAKE、VQA-RAD和JAMA Clinical Challenge。实验设计了不同的评估指标,以全面评估模型在传统基准和实际临床任务中的表现。实验结果表明,PMC-Cambrian-AN在多个任务上显著优于现有的公共医疗模型和通用模型,特别是在JAMA Clinical Challenge基准上,其表现尤为突出。

LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound

➡️ 论文标题:LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound
➡️ 论文作者:Xuechen Guo, Wenhao Chai, Shi-Yan Li, Gaoang Wang
➡️ 研究机构: ZJU-UIUC Institute, Zhejiang University, University of Washington, Zhejiang University School of Medicine Sir Run Run Shaw Hospital, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Model, MLLM)在视觉语言任务中展现出显著的能力,但现有的通用视觉语言模型(VLM)在医疗视觉问答(Med-VQA)任务中表现不佳,尤其是在处理细微的医学图像时。此外,现有的医疗多模态模型在处理数据冗余时也存在不足,这在临床场景中非常常见。
➡️ 研究动机:为了提高多模态大语言模型在医疗领域的适应性和鲁棒性,研究团队提出了一种细粒度的适应性VLM架构,通过参数高效的调优方法,增强模型对细微医学视觉语义的理解,并设计了自适应采样模块来处理医疗场景中的数据冗余问题。
➡️ 方法简介:研究团队提出了LLaVA-Ultra,这是一种针对中文医疗领域的大型语言和视觉助手。该模型通过融合细粒度的视觉编码器(如Segment Anything Model, SAM)和CLIP编码器,增强了视觉特征的提取能力。此外,团队还设计了自适应采样策略,通过特征评分和注意力评分来筛选有效的图像信息,以提高模型在复杂医疗场景中的表现。
➡️ 实验设计:研究团队利用从医院数据库中收集的大规模中文超声多模态数据集,生成了专业的多模态指令数据,用于模型的微调。实验在三个公开的医疗视觉问答(Med-VQA)数据集上进行,评估了LLaVA-Ultra在不同任务中的性能。实验结果表明,LLaVA-Ultra在多个指标上超越了现有的最先进模型。

Modality-Fair Preference Optimization for Trustworthy MLLM Alignment

➡️ 论文标题:Modality-Fair Preference Optimization for Trustworthy MLLM Alignment
➡️ 论文作者:Songtao Jiang, Yan Zhang, Ruizhe Chen, Yeying Jin, Zuozhu Liu
➡️ 研究机构: 浙江大学、新加坡国立大学
➡️ 问题背景:直接偏好优化(Direct Preference Optimization, DPO)在对齐大型语言模型(LLMs)方面非常有效,但在应用于多模态模型(MLLMs)时,往往倾向于文本信息而忽视图像信息,导致输出不可靠和视觉幻觉。视觉幻觉是指模型生成的文本不准确地描述视觉内容或引用不存在的对象,这在视觉问答(VQA)等任务中尤为关键。
➡️ 研究动机:现有的偏好优化方法虽然在减少幻觉方面取得了一些进展,但往往忽视了文本和图像模态偏好优化之间的平衡。为了平衡这两种模态的偏好优化,并确保文本级别的优化能够结合图像偏好,研究团队提出了模态公平偏好优化(Modality-Fair Preference Optimization, MFPO)方法。
➡️ 方法简介:研究团队首先构建了图像偏好数据,以整合图像级别的奖励函数。通过提取关键词并映射到相应的图像区域,生成细粒度的噪声图像作为被拒绝的偏好数据。然后,设计了一个学习目标,确保模型在捕捉文本和图像偏好时保持高质量的输出。最后,采用多阶段对齐方法来稳定训练并提高跨模态的学习效果。
➡️ 实验设计:在多个公开数据集上进行了实验,包括Object HalBench、MMHalBench和AMBER。实验设计了不同因素(如图像噪声的强度和位置)的变化,以及不同类型的评估指标(如幻觉率、覆盖率和认知幻觉率),以全面评估模型在不同条件下的表现。实验结果表明,MFPO显著提高了MLLMs的可信度,尤其是在减少幻觉方面表现突出。

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

➡️ 论文标题:Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining
➡️ 论文作者:Han Huang, Yuqi Huo, Zijia Zhao, Haoyu Lu, Shu Wu, Bingning Wang, Qiang Liu, Weipeng Chen, Liang Wang
➡️ 研究机构: University of Chinese Academy of Sciences (UCAS)、Baichuan Inc.、New Laboratory of Pattern Recognition (NLPR)、Institute of Automation, Chinese Academy of Sciences (CASIA)、Gaoling School of Artificial Intelligence, Renmin University of China
➡️ 问题背景:多模态大语言模型(MLLMs)通过整合视觉和文本模态,显著扩展了人工智能的能力。然而,训练MLLMs的关键因素之一是多模态预训练数据集中图像-文本对的质量。现有的基于过滤的数据质量增强方法通常会因为图像和文本之间的语义对齐不足而丢弃大量高质量图像数据,导致数据利用效率低下和扩展性差。
➡️ 研究动机:现有的过滤方法在提高数据质量的同时,不可避免地丢弃了大量高质量图像。为了在保持高数据质量的同时最大化数据量,研究团队提出了自适应图像-文本质量增强器(AITQE),旨在动态评估和增强图像-文本对的质量,从而在不显著改变文本分布的情况下,最小化调整文本,以保留数据量并提高质量。
➡️ 方法简介:研究团队提出了AITQE模型,该模型通过文本重写机制对低质量的图像-文本对进行增强,并引入了对比样本学习策略,通过在训练过程中故意纳入低质量样本,以增强模型的评估能力。与现有方法相比,AITQE最小化调整文本,以保留数据量并提高质量,同时促进预训练数据的高效探索。
➡️ 实验设计:实验在多个基准数据集上进行,包括SEED-Bench-2、MME、AMBER、OKVQA、VQAv2、DocVQA、TextVQA和Textcaps。实验设计了不同数据集的随机采样和AITQE增强数据的对比分析,以全面评估模型在不同条件下的表现。实验结果表明,AITQE在多个基准测试中超越了现有方法,有效地利用了原始数据,并且随着数据量的增加,表现更加稳定。

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

➡️ 论文标题:LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
➡️ 论文作者:Yuxuan Cai, Jiangning Zhang, Haoyang He, Xinwei He, Ao Tong, Zhenye Gan, Chengjie Wang, Xiang Bai
➡️ 研究机构: 华中科技大学、浙江大学、腾讯优图实验室、华中农业大学
➡️ 问题背景:大型语言模型(LLM)的成功促使研究人员探索多模态大型语言模型(MLLM),以实现统一的视觉和语言理解。然而,MLLM的模型规模和计算复杂度限制了其在资源受限环境中的应用。小型MLLM(s-MLLM)虽然减少了计算需求,但性能显著下降。为了解决这些问题,研究团队提出了一种新的框架LLaVA-KD,通过知识蒸馏技术将大型MLLM(l-MLLM)的知识转移到小型MLLM。
➡️ 研究动机:现有的研究主要通过优化模型结构和提高训练数据质量来提升小型MLLM的性能,但这些方法通常需要复杂的模型结构或多个教师模型。本研究旨在通过优化训练策略,而不改变模型架构,来显著提升小型MLLM的性能。
➡️ 方法简介:研究团队提出了一个三阶段的训练方案,包括蒸馏预训练(DPT)、监督微调(SFT)和蒸馏微调(DFT)。DPT阶段通过多模态蒸馏(MDist)和关系蒸馏(RDist)来对齐视觉和文本特征;SFT阶段通过监督学习初始化模型的推理和指令跟随能力;DFT阶段进一步通过MDist和RDist将大型MLLM的能力转移到小型MLLM。
➡️ 实验设计:研究团队在五个流行的多模态基准数据集上进行了实验,包括VQAv2、VizWiz、MMB、GQA和POPE。实验设计了不同的训练阶段和蒸馏策略,以全面评估LLaVA-KD的有效性和效率。实验结果表明,LLaVA-KD在模型规模为1B参数的情况下,显著超越了现有的大型MLLM模型,如BLIP2-13B和InstructBLIP-7B。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/88967.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/88967.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/88967.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

模型预测控制专题:无差拍预测电流控制

前言: 为了进一步深入探索电机控制这个领域,找到了一些志同道合的同学一起来进行知识的分享。最近群里投票后续更新内容,票数最多的方向就是模型预测控制;无论这个方向目前是否还是很火,至少应大家需求,工…

Youtube双塔模型

1. 引言 在大规模推荐系统中,如何从海量候选物品中高效检索出用户可能感兴趣的物品是一个关键问题。传统的矩阵分解方法在处理稀疏数据和长尾分布时面临挑战。本文介绍了一种基于双塔神经网络的建模框架,通过采样偏差校正技术提升推荐质量,并…

.net8创建tcp服务接收数据通过websocket广播

注册TCP服务器 注册WebSocket中间件 using System.Net; using System.Net.Sockets; using System.Text; using System.Text.Json; using Microsoft.AspNetCore.Builder; using Microsoft.AspNetCore.Http; using Microsoft.AspNetCore.SignalR.Client; using Microsoft.AspNet…

阅读服务使用示例(HarmonyOS Reader Kit)

阅读服务使用示例(HarmonyOS Reader Kit) Reader Kit到底能干啥? 第一次搞电子书阅读器,真以为就是“读txt显示出来”这么简单,结果各种格式、排版、翻页动效、目录跳转……全是坑。还好有Reader Kit,救了…

ASP.NET Core Web API 实现 JWT 身份验证

在ASP.NET Core WebApi中使用标识框架(Identity)-CSDN博客 因为一般需要和标识框架一起使用,建议先查看标识框架用法 一.为什么需要JWT 我们的系统需要实现认证,即服务端需要知道登录进来的客户端的身份,管理员有管理员的权限,普通用户有普通用户的权限. 但服务…

优化Cereal宏 一行声明序列化函数

Cereal序列化库中宏递归展开的优化方案及技术解析 未优化&#xff1a;参考nlohmann json设计Cereal宏 一行声明序列化函数 宏实现 #include <cereal/cereal.hpp>// 强制二次展开 #define CEREAL_EXPAND( x ) x// 获取宏参数的数量&#xff0c;对应的CEREAL_PASTEn宏NAME…

14-C#的弹出的窗口输入与输出

C#的弹出的窗口输入与输出 1.文件名输入 string fileName Interaction.InputBox("输入保存的文件名", "保存");2.弹窗信息输出 MessageBox.Show("请选择轮询!", "Error", MessageBoxButtons.OK);catch (Exception ex){MessageBox.S…

多模态大语言模型arxiv论文略读(141)

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance ➡️ 论文标题&#xff1a;Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance ➡️ 论文作者&#xff1a;Zhangwei …

VScode使用usb转网口远程开发rk3588

我使用的是鲁班猫的板&#xff0c;只有一个网口&#xff0c;需要接雷达&#xff0c;因此另外弄了一个usb转网口来连接电脑开发。 在使用vscode或MobaXterm连接板子时&#xff0c;使用主机名与用户名来连接&#xff1a; ssh catlubancat rk那边就直接插入usb转网口以及网线&a…

AUTOSAR图解==>AUTOSAR_AP_EXP_SOVD

AUTOSAR服务导向车辆诊断详解 面向现代化车辆架构的诊断方案 目录 1. 引言 1.1 ASAM SOVD简介1.2 SOVD产生的动机 2. SOVD参考架构 2.1 SOVD网关2.2 诊断管理器2.3 SOVD到UDS转换2.4 后端连接 3. SOVD用例 3.1 SOVD和UDS的共同用例3.2 SOVD特定用例 3.2.1 访问权限3.2.2 软件更…

第八讲:STL简介

1. 什么是STL STL(standard template libaray-标准模板库)&#xff1a;是C标准库的重要组成部分&#xff0c;不仅是一个可复的 组件库&#xff0c;而且是一个包罗数据结构与算法的软件框架。 2. STL的版本 a. 原始版本 Alexander Stepanov、Meng Lee 在惠普实验室完成的原始版本…

高弹性、高可靠!腾讯云 TDMQ RabbitMQ Serverless 版全新发布

导语 2025年6月起&#xff0c;腾讯云 TDMQ RabbitMQ 版正式推出 Serverless 版本&#xff0c;该版本基于自研的存算分离架构&#xff0c;兼容 AMQP 0-9-1 协议和开源 RabbitMQ 的各个组件与概念&#xff0c;且能够规避开源版本固有的不抗消息堆积、脑裂等稳定性缺陷&#xff0…

Linux 内存调优之 BPF 分析用户态小内存分配

写在前面 博文内容为 使用 BPF 工具跟踪 Linux 用户态小内存分配(brk,sbrk)理解不足小伙伴帮忙指正 😃,生活加油我看远山,远山悲悯 持续分享技术干货,感兴趣小伙伴可以关注下 _ brk 内存分配简单概述 一般来说,应用程序的数据存放于堆内存中,堆内存通过brk(2)系统调用进…

心理测评app心理测试系统框架设计

一、逻辑分析 用户管理逻辑 新用户注册&#xff1a;需要收集用户的基本信息&#xff0c;如用户名、密码、邮箱等&#xff0c;并且要对输入信息进行合法性校验&#xff0c;确保信息完整且符合格式要求。同时&#xff0c;为每个新用户生成唯一的标识符&#xff0c;方便后续数据管…

配置有nvlink的H20A800使用pytorch报错

背景 装有nvlink的h20机器上配置好驱动和cuda之后使用pytorch报错 A800机器同样 (pytorch2.4) rootxx-dev-H20:~# python Python 3.12.0 | packaged by Anaconda, Inc. | (main, Oct 2 2023, 17:29:18) [GCC 11.2.0] on linux Type “help”, “copyright”, “credits” or …

sql的语句执行过程

第一步&#xff1a;客户端把语句发给服务器端执行 当我们在客户端执行SQL语句时&#xff0c;客户端会把这条SQL语句发送给服务器端&#xff0c;让服务器端的进程来处理这语句。也就是说&#xff0c;Oracle 客户端是不会做任何的操作&#xff0c;他的主要任务就是把客户端产生的…

深度学习-分类

深度学习-分类方式 &#xff08;重点&#xff09;一、按数据类型与处理逻辑分类1. 序列数据&#xff08;时序/顺序相关&#xff09;2. 网格状数据&#xff08;空间相关&#xff09;3. 图结构数据&#xff08;非欧几里得结构&#xff09;4. 其他特殊类型数据 &#xff08;重点&a…

C语言---常见的字符函数和字符串函数介绍

目录 前言 1 字符分类函数 2 字符转换函数 3 strlen的使用和模拟实现 3.1 strlen的模拟实现 4 strcpy的使用和模拟实现 4.1 strcpy的模拟实现 5 strcat的使用和模拟实现 5.1 strcat的模拟实现 6 strcmp的使用和模拟实现 6.1 strcmp的模拟实现 7 strncpy函数的使用…

Minio入门+适配器模式(实战教程)

一、安装Minio 1.1 拉取镜像 docker pull minio/minio docker images 1.2创建挂载目录 1.2.1 创建数据目录 mkdir -p /docker-minio/data 1.2.2 创建配置文件目录 mkdir -p /docker-minio/config 1.2.3 设置权限 chmod -R 777 /docker-minio/data /docker-minio/config …

LLaMA-Factory 对 omnisql 进行 ppo dpo grpo nl2sql任务 实现难度 时间 全面对比

在LLaMA-Factory框架下&#xff0c;针对omnisql任务&#xff08;自然语言到SQL生成&#xff09;应用PPO、DPO、GRPO三种算法的实现难度、时间及全面对比如下&#xff1a; 一、实现难度对比 1. PPO&#xff08;近端策略优化&#xff09; 难度&#xff1a;★★☆☆☆&#xff…