在这里插入图片描述

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models

➡️ 论文标题:Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models
➡️ 论文作者:Zhen Zeng, Leijiang Gu, Xun Yang, Zhangling Duan, Zenglin Shi, Meng Wang
➡️ 研究机构: Hefei University of Technology, University of Science and Technology of China, Hefei Comprehensive National Science Center
➡️ 问题背景:当前的知识编辑方法主要集中在大型语言模型(LLMs)上,旨在高效且成本效益地纠正不准确信息和更新过时信息。然而,随着多模态大型语言模型(MLLMs)的兴起,这些模型集成了文本和视觉信息,带来了新的编辑复杂性。现有的多模态知识编辑方法主要关注文本导向的粗粒度场景,未能解决多模态环境下的独特挑战。
➡️ 研究动机:为了应对多模态知识编辑中的复杂挑战,研究团队提出了一种视觉导向的细粒度多模态知识编辑任务,旨在精确编辑图像中的多个交互实体。研究团队还引入了Fine-Grained Visual Knowledge Editing (FGVEdit) 基准,以评估这一任务。此外,研究团队提出了Multimodal Scope Classifier-based Knowledge Editor (MSCKE) 框架,该框架通过结合视觉和文本信息,实现对特定实体的精确知识更新。
➡️ 方法简介:MSCKE框架基于SERAC方法进行了改进,通过引入多模态范围分类器(Multimodal Scope Classifier),结合视觉和文本信息,准确识别和更新与特定实体相关的知识。该框架包括四个主要组件:多模态编辑记忆(Multimodal Edit Memory)、多模态范围分类器、基础多模态模型(Base Multimodal Model)和反事实多模态模型(Counterfactual Multimodal Model)。在编辑过程中,MSCKE不会修改基础模型的参数,而是将编辑示例存储在多模态编辑记忆中。当接收到新输入时,多模态范围分类器会评估输入与存储的编辑示例的相关性,并决定是否调用编辑信息。
➡️ 实验设计:研究团队在FGVEdit基准上进行了广泛的实验,评估了MSCKE框架在细粒度视觉知识编辑任务中的表现。实验设计了多个评估指标,包括特异性(Specificity)、可靠性(Reliability)、局部性(Locality)和泛化性(Generality),以全面评估模型的编辑性能。实验结果表明,MSCKE框架在这些指标上均优于现有方法,展示了其在解决多模态知识编辑复杂挑战方面的有效性。

Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving

➡️ 论文标题:Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving
➡️ 论文作者:Hao Zhou, Zhanning Gao, Maosheng Ye, Zhili Chen, Qifeng Chen, Tongyi Cao, Honggang Qi
➡️ 研究机构: UCAS、HKUST、DeepRoute.AI
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在自动驾驶的视觉问答(VQA)任务中面临挑战,尤其是在复杂交互和长尾场景的表示上。尽管CLIP等模型在视觉编码器中表现出色,但它们在实例级结构和领域特定语义信息的表示上存在不足,导致在复杂驾驶场景中的表现不佳。
➡️ 研究动机:为了提高MLLMs在自动驾驶VQA任务中的表现,研究团队提出了“提示的暗示”(Hints of Prompt, HoP)框架,通过引入三种增强提示(Affinity hint、Semantic hint、Question hint)来丰富视觉表示,增强模型对复杂驾驶场景的理解和响应能力。
➡️ 方法简介:HoP框架通过Affinity hint捕捉实例级结构,通过Semantic hint引入领域特定的高层次语义信息,通过Question hint将视觉特征与问题上下文对齐,确保模型关注与问题相关的关键区域。这些提示通过一个简单的Hint Fusion模块融合,与视觉令牌结合,经过适配器处理后传递给大语言模型(LLM)生成答案。
➡️ 实验设计:研究团队在LingoQA、DRAMA和BDD-X三个数据集上进行了实验,评估了HoP框架在不同任务(如物体识别、场景描述、驾驶推理等)中的表现。实验设计了不同的提示类型和融合策略,以验证每种提示对模型性能的贡献,并探索了高效版本的HoP方法,通过轻量级头部结构提取提示信息,减少计算负担。
➡️ 实验结果:实验结果表明,HoP框架在所有关键指标上显著优于现有方法,特别是在LingoQA数据集上,HoP取得了67.8的Lingo-Judge得分,刷新了该数据集的最新记录。此外,HoP在DRAMA和BDD-X数据集上也表现出色,展示了其在不同难度场景下的鲁棒性和有效性。

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

➡️ 论文标题:DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
➡️ 论文作者:Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Chenming Zhang, Shuai Liu, Long Chen
➡️ 研究机构: 武汉大学计算机学院、中国科学院自动化研究所、Waytous、悉尼科技大学HAI中心、AAII计算机科学学院、牛津大学计算机科学系、TikTok、西安交通大学人工智能与机器人研究所
➡️ 问题背景:自动驾驶需要全面理解3D环境,以支持高层次任务,如运动预测、规划和地图构建。尽管在基于对象的识别任务中取得了巨大进展,但自动驾驶中的对象间空间关系推理仍被忽视,这对实现全面的3D场景理解至关重要。现有的多模态大语言模型(MLLMs)在处理这些复杂的空间关系方面存在局限性。
➡️ 研究动机:为了评估MLLMs在自动驾驶中的空间理解能力,研究团队提出了DriveMLLM基准测试。该基准测试旨在评估MLLMs在处理绝对和相对空间关系任务中的表现,揭示当前模型的局限性,并推动更高级的MLLM空间推理方法的发展。
➡️ 方法简介:研究团队基于nuScenes数据集构建了DriveMLLM基准测试,该数据集包含880张前视摄像头图像和多样化的自然语言问题。DriveMLLM引入了绝对空间推理和相对位置关系推理任务,以全面评估模型的空间理解能力。研究团队还提出了新的评估指标,以更准确地衡量模型的性能。
➡️ 实验设计:研究团队在DriveMLLM基准测试上评估了多种最先进的MLLMs,包括GPT-4o、GPT-4o-mini、LLaVA-ov-7b、LLaVA-ov-72b、Qwen2-vl-7b、Qwen2-vl-72b和Gemini-1.5-flash。实验设计了零样本、单样本和五样本学习三种设置,以评估模型在不同条件下的表现。评估指标包括准确性、效率和综合评分,以全面评估模型的空间理解能力和输出格式的合规性。

AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations

➡️ 论文标题:AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations
➡️ 论文作者:Gaurav Verma, Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Tucker Balch, Manuela Veloso
➡️ 研究机构: Georgia Institute of Technology, J.P. Morgan AI Research
➡️ 问题背景:当前的多模态网络代理(Multimodal Web Agents)虽然在处理用户指令和与图形用户界面(GUI)交互方面表现出色,但它们在未见过的网站和领域中的泛化能力有限,这限制了它们在企业特定和专有平台上的应用。现有的方法主要依赖于大规模预训练和微调,但这些方法成本高昂且效率低下。
➡️ 研究动机:为了提高多模态网络代理在未见过的网站和领域中的适应能力,研究团队提出了一种新的框架——AdaptAgent,该框架通过少量的人类演示(1-2个示例)来快速适应新的环境。研究旨在探索多模态网络代理是否可以通过少量的人类演示来提高其在未见过的网站和领域中的任务成功率。
➡️ 方法简介:AdaptAgent框架结合了上下文学习(In-Context Learning, ICL)和元学习(Meta-Learning)两种方法。对于专有模型(如GPT-4o),通过在上下文中加入多模态人类演示来实现快速适应;对于开源模型(如CogAgent),则通过元学习来优化模型的初始参数,然后使用少量的人类演示进行微调,以实现快速适应。
➡️ 实验设计:研究团队在两个广泛使用的基准数据集——Mind2Web和VisualWebArena上进行了实验。实验设计了不同数量的演示示例(1个或2个),以评估模型在不同条件下的适应能力和任务成功率。实验结果表明,使用少量的人类演示可以显著提高任务成功率,特别是在未见过的网站和领域中。具体来说,AdaptAgent框架在Mind2Web和VisualWebArena上的任务成功率分别提高了3.36%到7.21%,相对提高了21.03%到65.75%。
➡️ 主要贡献:

  • 提出了AdaptAgent框架,使最先进的多模态网络代理能够通过少量的人类演示快速适应新的网站和领域。
  • 通过在Mind2Web和VisualWebArena上的广泛实验,验证了AdaptAgent框架的有效性,特别是在未见过的网站和领域中。
  • 进行了额外的分析,提供了关于多模态演示与文本演示的效果对比、元学习中不同数据选择策略的影响以及少量示例数量对代理性能的影响的见解。

Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs

➡️ 论文标题:Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs
➡️ 论文作者:Rui Cao, Yuming Jiang, Michael Schlichtkrull, Andreas Vlachos
➡️ 研究机构: University of Cambridge、Nanyang Technological University、Queen Mary University of London
➡️ 问题背景:多模态大语言模型(MLLMs)通过与人类偏好对齐,可以增强其可信度。然而,现有的方法在利用评估模型生成偏好数据时面临挑战,尤其是在处理MLLMs的长且复合的响应时,这些响应往往需要多样的推理技能,而单一评估模型可能不具备这些技能。此外,大多数现有方法依赖于闭源模型作为评估者,这既昂贵又限制了透明度。
➡️ 研究动机:为了克服上述限制,研究团队提出了DecompGen,一个可分解的框架,利用开源专家模型的集合来生成高质量的反馈。DecompGen通过将每个响应分解为原子验证任务,并将每个任务分配给适当的专家模型,生成细粒度的评估。这些评估用于自动构建偏好数据集DGPref,以优化MLLMs的偏好学习,从而显著提高其可信度。
➡️ 方法简介:DecompGen框架包括两个步骤:响应分解和专家模型执行。首先,给定一个响应,DecompGen会生成一个响应特定的布局,将响应分解为原子验证任务(如对象存在验证和空间关系验证)。然后,根据布局动态组装和执行专家模型,每个模型负责一个特定的原子验证任务。通过专家模型的执行,生成细粒度的反馈,这些反馈用于构建偏好数据集DGPref。
➡️ 实验设计:研究团队在三个基准数据集上进行了实验,包括ObjHal、MMHal和AMBER,这些数据集分别评估了对象幻觉、信息量和幻觉率等多个维度。实验设计了不同的响应生成指令和偏好数据的分类方法,以全面评估MLLMs在偏好学习后的表现。实验结果表明,使用DGPref进行偏好学习的MLLMs在减少幻觉的同时,保持了较高的信息量和覆盖率,显著提高了模型的可信度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/88558.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/88558.shtml
英文地址,请注明出处:http://en.pswp.cn/web/88558.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python PDF处理库深度对比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别

Python PDF处理库深度对比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别前言1. 库的基本介绍1.1 PyMuPDF (fitz)1.2 pypdfium21.3 pdfplumber1.4 pdfminer2. 关系图谱3. 核心区别对比3.1 性能对比3.2 功能对比4. 代码示例对比4.1 基本文本提取PyMuPDFpypd…

制作 ext4 文件系统

按以下步骤操作可以将一个文件夹制作成 Android 可用的 ext4 格式的 img 文件:方法 1:使用标准 Linux 工具(推荐) 步骤 1:安装必要工具 sudo apt update sudo apt install e2fsprogs android-sdk-libsparse-utils # 适…

Flink自定义函数

一、UDF 核心原理 Flink 自定义函数(UDF)是扩展 Table API/SQL 能力的核心机制,允许将自定义逻辑嵌入查询。其设计遵循以下原则: 1. 函数类型体系类型输入输出关系核心用途标量函数(ScalarFunction)0~N 个标…

【AI学习】大模型微调实践

参加了书生・浦语(InternLM)端侧小模型论文分类微调练习打榜赛 具体的实践教程在: https://aicarrier.feishu.cn/wiki/D7kZw9Nx4iMyDnkpL0Gc5giNn5g 折腾了十多天,各种尝试,AB榜单终于进入了前十都,累死 …

ElementUI:高效优雅的Vue.js组件库

Hi,我是布兰妮甜 !在当今快节奏的前端开发领域,选择一个功能强大、设计优雅且易于使用的UI组件库至关重要。ElementUI作为基于Vue.js的知名组件库,凭借其丰富的组件体系、一致的设计语言和出色的开发体验,已成为众多企…

Java Stream流介绍及使用指南

背景在Java 8之前,处理集合数据(如List, Set, Map)通常意味着编写冗长的、以操作为中心的代码:创建迭代器、使用for或while循环遍历元素、在循环体内进行条件判断和操作、收集结果。这种方式虽然有效,但不够简洁、可读…

JDK 1.7 vs JDK 1.8

JDK版本比较 Java平台的两次重大飞跃:JDK 7的稳定优化与JDK 8的革命性创新引言:Java的进化之路Java作为企业级开发的支柱语言,其版本更新直接影响着全球数百万开发者。JDK 1.7(2011年发布)和JDK 1.8(2014年…

张量与维度

3x4x5的张量: x torch.tensor([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20]], [[21, 22, 23, 24, 25], …

智慧菜场系统(源码+文档+讲解+演示)

引言 在数字化浪潮的推动下,传统菜市场也在寻求创新与变革。智慧菜场系统作为一种新型的菜市场管理工具,通过数字化手段优化菜市场的全流程,提高运营效率,增强消费者体验,提升市场管理质量。本文将详细介绍智慧菜场系统…

【GESP】C++一级真题 luogu-B4355 [GESP202506 一级] 值日

GESP C一级,2025年6月真题,基础运算和循环语句,难度★☆☆☆☆。 题目题解详见:【GESP】C一级真题 luogu-B4355 [GESP202506 一级] 值日 | OneCoder 【GESP】C一级真题 luogu-B4355 [GESP202506 一级] 值日 | OneCoderGESP C一级…

【Linux应用】Ubuntu20.04 aarch64开发板一键安装ROS2(清华源)

【Linux应用】Ubuntu20.04 aarch64开发板一键安装ROS2(清华源) 文章目录相关资料更改UTF8执行更新一键安装ROS2验证配置环境变量附录:开发板快速上手:镜像烧录、串口shell、外设挂载、WiFi配置、SSH连接、文件交互(RAD…

【HDLBits习题 2】Circuit - Sequential Logic(4)More Circuits

1. Rule90&#xff08;Rule 90&#xff09;方法1&#xff1a;module top_module (output reg [511:0] q,input clk,input load,input [511:0] data ); integer i;always (posedge clk) beginif (load 1b1) beginq < data;end else beginfor (i0; i<$bits(q);…

基于mysqlfrm工具解析mysql数据结构文件frm表结构和数据库版本信息

这里使用Linux系统上操作。win上搞了下 python报错。所以在这里记录一下推荐大家使用linux系统操作。 安装mysql utilswget https://downloads.mysql.com/archives/get/p/30/file/mysql-utilities-1.6.5.tar.gztar -xf mysql-utilities-1.6.5.tar.gzcd mysql-utilities-1.6.5py…

【C++ 深入解析 C++ 模板中的「依赖类型」】

深入解析 C 模板中的「依赖类型」 依赖类型是 C 模板编程中的核心概念&#xff0c;特指那些依赖于模板参数的类型。迭代器是依赖类型的常见例子&#xff0c;但远不止于此。让我们全面解析这个重要概念&#xff1a; 依赖类型的本质定义 依赖类型是&#xff1a; 在模板中定义直接…

Telnet远程连接实验(Cisco)

Telnet远程连接实验&#xff08;Cisco&#xff09; 拓扑图一并实现DHCP服务、HTTP服务、FTP服务。 二层交换机配置&#xff1a; 交换机Switch0配置&#xff1a; vlan 10vlan 20int f0/1switchport mode accessswitchport access vlan 10int f0/2switchport mode accessswitchpo…

C++:非类型模板参数,模板特化以及模板的分离编译

目录 一、前言 二、非类型模板参数 三、模板的特化 3.1 类模板特化 3.11 全特化 3.12 偏特化 3.2 函数模板特化 3.3 注意 四、模板的分离编译 一、前言 前面的文章梳理了模板初阶的一些用法&#xff0c;在后面梳理了STL的一些容器的用法后&#xff0c;下面将用到含有S…

【Qt 学习之路】Qt Android开发环境搭建:Ubuntu的Vmware虚拟机中的踩坑实录

文章目录1、简介2、虚拟机内USB设备识别难题2.1、正确连接手机2.2、打开USB相关配置2.3、打开虚拟机中的手机设备3、Gradle下载速度缓慢之困3.1、下载 Gradle 镜像3.2、安放镜像位置3.3、修改项目中的gradle路径1、简介 许久未曾使用Qt进行Android开发&#xff0c;今日在Ubunt…

MySQL中使用group_concat遇到的问题及解决

在使用group_concat的过程中遇到个问题&#xff0c;这里记录一下&#xff1a;在MySQL中有个配置参数group_concat_max_len&#xff0c;它会限制使用group_concat返回的最大字符串长度&#xff0c;默认是1024。 查询group_concat_max_len大小&#xff1a; show variables like…

高性能小型爬虫语言与代码示例

高性能小型爬虫现在有哪几种新兴语言可以选择。我看到了很多关于爬虫框架的信息&#xff0c;特别是使用Go语言和Node.js的框架。Go语言方面有Kaola1和Katana2这两个框架。Kaola被描述为高性能的Go语言爬虫框架&#xff0c;轻量级且强大&#xff0c;提供灵活配置选项。 Node.js…

【PTA数据结构 | C语言版】在顺序表 list 中查找元素 x

本专栏持续输出数据结构题目集&#xff0c;欢迎订阅。 文章目录题目代码题目 请编写程序&#xff0c;将 n 个整数存入顺序表&#xff0c;对任一给定整数 x&#xff0c;查找其在顺序表中的位置。 输入格式&#xff1a; 输入首先在第一行给出正整数 n&#xff08;≤10^4 &#…