在这里插入图片描述

Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios

➡️ 论文标题:Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios
➡️ 论文作者:Yunkai Dang, Mengxi Gao, Yibo Yan, Xin Zou, Yanggan Gu, Aiwei Liu, Xuming Hu
➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou)、The Hong Kong University of Science and Technology、Tsinghua University
➡️ 问题背景:多模态大语言模型(MLLMs)在各种基准测试中展示了令人印象深刻的能力。然而,现有的基准测试中包含许多样本,所有MLLMs在遇到误导信息时表现出高度的响应不确定性,需要5-15次响应尝试才能有效评估不确定性。因此,研究团队提出了一种两阶段的管道:首先收集没有误导信息的MLLMs响应,然后通过特定的误导指令收集误导信息。通过计算误导率,并捕捉正确到错误和错误到正确的响应转变,可以有效度量模型的响应不确定性。
➡️ 研究动机:现有的研究已经揭示了MLLMs在处理高误导率数据时表现出显著的不确定性。为了进一步理解这些威胁,并探索其背后的原因,研究团队全面分析了不同MLLMs在误导信息下的性能变化,旨在为未来的安全防护提供有价值的见解和方法。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建多模态不确定性基准(MUB),来评估不同类型误导指令对MLLMs的影响。MUB包含了一系列的基础清洁数据、因素修改和不同目标威胁,以全面评估模型在不同条件下的表现。研究团队还提出了显式和隐式误导指令的生成方法,以更全面地评估模型的响应不确定性。
➡️ 实验设计:在九个公开数据集上进行了实验,包括多模态多选题和真假题任务。实验设计了不同因素(如误导指令的类型、强度和位置)的变化,以及不同类型的攻击目标(如保护性、有害性、偏见性和中性内容),以全面评估模型对误导信息的敏感性和抗干扰能力。实验结果表明,所有开源和闭源MLLMs都高度易受误导指令的影响,平均误导率超过86%。通过混合显式和隐式误导数据对所有开源MLLMs进行微调,显著降低了误导率,同时保持了模型的泛化能力。

Multimodal Commonsense Knowledge Distillation for Visual Question Answering

➡️ 论文标题:Multimodal Commonsense Knowledge Distillation for Visual Question Answering
➡️ 论文作者:Shuo Yang, Siwen Luo, Soyeon Caren Han
➡️ 研究机构: University of Melbourne、University of Western Australia
➡️ 问题背景:现有的多模态大型语言模型(MLLMs)和视觉语言预训练模型(VLPMs)在通用视觉问答(VQA)任务中表现出色。然而,这些模型在处理需要外部常识知识的VQA问题时存在困难,主要由于生成高质量提示的挑战和微调的高计算成本。
➡️ 研究动机:为了克服现有模型在处理需要外部常识知识的VQA问题时的局限性,研究团队提出了一种基于图的多模态常识知识蒸馏框架。该框架通过构建统一的关系图,将常识知识、视觉对象和问题通过图卷积网络(GCN)进行关联学习,旨在提高模型在VQA任务中的性能,尤其是在需要外部常识知识的情况下。
➡️ 方法简介:研究团队提出了一种多模态教师-学生知识蒸馏框架,该框架通过构建一个统一的关系图,将图像、问题和常识知识图中的对象实体整合在一起,并通过GCN显式学习它们之间的关系。学习到的图特征被传递给学生模型,用于最终的答案预测。该框架可以灵活地与任何预训练的视觉和文本编码器结合,以实现多样化的特征提取。
➡️ 实验设计:研究团队在ScienceQA数据集上评估了所提出的框架。实验设计了不同大小的基线模型(包括小型MLP、中型Transformer和大型VLPMs),并在这些模型中分别测试了是否集成所提出的图基知识蒸馏框架。实验结果表明,无论是在小型、中型还是大型模型中,集成该框架后,模型的性能都有显著提升,特别是在需要外部常识知识的VQA任务中。

MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

➡️ 论文标题:MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
➡️ 论文作者:Ziliang Gan, Yu Lu, Dong Zhang, Haohan Li, Che Liu, Jian Liu, Ji Liu, Haipang Wu, Chaoyou Fu, Zenglin Xu, Rongjunchen Zhang, Yong Dai
➡️ 研究机构: HiThink Research、Imperial College London、Beihang University、Nanjing University、Fudan University
➡️ 问题背景:近年来,多模态基准测试在通用领域的发展迅速,推动了多模态模型在通用任务上的进步。然而,金融领域具有独特性,包括特有的图形图像(如K线图、技术指标图)和丰富的金融知识(如期货、换手率)。因此,通用领域的基准测试往往无法有效评估多模态模型在金融领域的表现,也无法有效指导大型金融模型的快速发展。
➡️ 研究动机:为了促进大型金融多模态模型的发展,研究团队提出了MME-Finance,这是一个双语、开放性、实用导向的视觉问答(VQA)基准测试。MME-Finance旨在评估多模态模型在金融领域的感知、推理和认知能力,通过构建反映用户实际使用需求的图表、根据金融领域查询偏好创建问题,并由具有10年以上金融行业经验的专家进行标注,确保了基准测试的质量和专业性。
➡️ 方法简介:研究团队设计了一个多层次的开放性问答任务体系,涵盖了从基本的视觉感知任务(如OCR)到复杂的认知任务(如提供投资建议)。为了确保MME-Finance的质量,团队精心设计了标注流程,并邀请了金融行业的专家进行详细验证。此外,研究团队还开发了一个定制的金融评估系统,首次在多模态评估过程中引入了视觉信息,以提高评估性能。
➡️ 实验设计:研究团队在MME-Finance上对19个主流的多模态大语言模型(MLLMs)进行了广泛的评估,测试了它们在感知、推理和认知方面的能力。实验结果表明,即使在通用基准测试中表现良好的模型,在MME-Finance上的表现也不尽如人意,尤其是在与金融相关的任务上,如K线图和技术指标图的处理。此外,研究还发现,MLLMs在处理移动摄影相关的问题时表现较差,而这类问题是金融问答中相对高频的使用场景。

StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

➡️ 论文标题:StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
➡️ 论文作者:Junming Lin, Zheng Fang, Chi Chen, Zihao Wan, Fuwen Luo, Peng Li, Yang Liu, Maosong Sun
➡️ 研究机构: Tsinghua University、Institute for AI Industry Research (AIR)、Beijing University of Posts and Telecommunications
➡️ 问题背景:多模态大语言模型(MLLMs)在视频理解任务中表现出色,但大多数模型主要集中在离线视频理解上,需要处理完所有视频帧后才能进行查询。这与人类实时观看、听、思考和响应流式输入的能力存在显著差距,突显了当前MLLMs的局限性。
➡️ 研究动机:为了评估MLLMs在流式视频理解方面的能力,研究团队开发了StreamingBench,这是第一个全面评估MLLMs流式视频理解能力的基准。StreamingBench旨在评估三个核心方面:实时视觉理解、多源理解、上下文理解。通过这一基准,研究团队希望推动MLLMs在更接近人类水平的视频理解与交互方面的发展。
➡️ 方法简介:StreamingBench包含900个视频和4,500个人工标注的问答对,涵盖了八个不同的视频类别,反映了广泛的真实场景。每个视频包含五个问题,分别在不同的时间点提出,以模拟连续的流式场景。这些问题被分为18个任务,主要分为三个类别:实时视觉理解、多源理解、上下文理解。
➡️ 实验设计:研究团队在StreamingBench上对13个开源和专有的MLLMs进行了实验,包括GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet等。实验设计了不同任务,如实时视觉理解、多源理解、上下文理解等,以全面评估模型在流式视频理解任务中的表现。实验结果显示,即使是性能最好的模型Gemini 1.5 Pro,其平均准确率也只有67.07%,远低于人类水平。研究团队进一步分析了模型在实时处理、上下文理解和主动输出等方面的表现,揭示了当前模型的不足之处。

Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education

➡️ 论文标题:Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education
➡️ 论文作者:Anand Syamkumar, Nora Tseng, Kaycie Barron, Shanglin Yang, Shamya Karumbaiah, Rheeya Uppal, Junjie Hu
➡️ 研究机构: Stony Brook University, University of Wisconsin-Madison
➡️ 问题背景:大型语言模型(LLMs)在生成教育内容、提供教师反馈和减少评估工作量方面展现出巨大潜力。然而,现有的研究主要集中在单语环境,尤其是英语环境,对于双语或多语环境的支持有限。双语学习者在使用语言模型时面临的问题,如语言切换(code-switching)和多语言处理能力不足,需要进一步研究。
➡️ 研究动机:尽管多语言大型语言模型(MLLMs)在处理单一语言任务时表现出色,但在处理双语或多语任务时,尤其是在语言切换方面,表现不佳。研究团队通过评估MLLMs在单语(英语、西班牙语)和双语(Spanglish)学生写作评估中的表现,旨在揭示这些模型在双语环境中的偏见,并探索通过微调等技术提高其性能的方法。
➡️ 方法简介:研究团队构建了平行的英语、西班牙语和Spanglish数据集,用于评估MLLMs在不同语言环境下的表现。通过使用合成数据生成技术,研究团队创建了包含科学和社会科学概念的问答对,并进行了人工评估以确保数据质量。实验设计包括零样本、少样本提示和微调三种方法,以评估模型在不同条件下的性能。
➡️ 实验设计:实验分为三个部分:1) 零样本基线实验,评估MLLMs在英语、西班牙语和Spanglish中的原始性能;2) 提高Spanglish性能实验,通过少样本提示和微调来改进Spanglish任务的性能;3) 跨语言迁移实验,评估在不同语言上微调后的模型在其他语言上的表现。实验使用了Llama 3.1和Mistral NeMo两个开源模型,并通过LoRA技术加速微调过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/912733.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/912733.shtml
英文地址,请注明出处:http://en.pswp.cn/news/912733.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【教程】Linux中限制用户可以使用的GPU数量 | 附脚本

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录 背景说明 设置方法 管理脚本 进阶限制 恢复默认组 注意事项 背景说明 比较简单的方式是使用group来管理权限,这种方式能限制哪些…

90.xilinx复位低电平(一般使用低电平复位)

Xilinx FPGA 中的寄存器(Flip-Flop)**确实支持异步复位**,但具体实现方式取决于你使用的设计方法(HDL 代码风格或原语实例化)。以下是详细说明: --- ### 1. **Xilinx 寄存器的复位特性** - **同步复位…

NVMe高速传输之摆脱XDMA设计10: DMA 控制单元设计

DMA 控制单元负责控制 DMA 传输事务, 该单元承担了 DMA 事务到 NVMe 事务的转换任务, 使用户对数据传输事务的控制更加简单快捷。 DMA 控制功能由 DMA寄存器组实现。 DMA 寄存器组包含 DMA 操作寄存器、 DMA 长度寄存器、 DMA 源目的地址寄存器和 DMA 状…

如何设置电脑定时休眠?操作指南详解

长时间运行电脑会导致硬件过热,缩短其使用寿命。定时关机有助于让硬件得到休息,降低因长时间高负荷工作导致损坏的风险。 它的界面简洁直观,功能却十分实用,涵盖了定时关机、重启、注销、休眠、待机以及锁定等多种操作。 以设置“…

LeetCode[617]合并二叉树

思路: 我们合并左右子树,在递归左右子树的时候,一定要保证左右子树不为空,如果左子树为空,那么直接返回右子树就行了,即使右子树为空。如果右子树为空那么直接返回左子树就行了,这样判断完就正常…

Redis 常用五大数据类型

1、Redis 关键字(Key) keys * 查看当前库所有keyexists [key] 判断某个key是否存在type [key] 查看当前key的数据类型del [key] 删除指定的key数据unlink [key] 根据value选择非阻塞删除,仅将keys从keyspace元数据中删除,真正的删…

大语言模型(LLM)专业术语汇总

1. 训练与部署 1.1 预训练 专业:在海量无标注文本(如Common Crawl、Wikipedia)上通过自监督学习训练基础语言模型,学习通用语言表征(如GPT-3训练数据达45TB)。通俗:AI的“通识教育阶段”&…

【Java Swing 图形界面编程】JList 列表组件 ① ( JList 组件简介 | 核心作用 | 关键特性 | 基础用法示例 )

文章目录 一、JList 组件简介1、JList 概念简介2、JList 核心作用3、JList 关键特性 二、JList 组件基础用法示例1、使用 String 数组构建列表项2、使用 Vector 集合构建列表项3、使用 DefaultListModel 构建列表项 一、JList 组件简介 1、JList 概念简介 基本概念 : JList 组件…

【小技巧】Python+PyCharm IDE 配置解释器出错,环境配置不完整或不兼容。(小智AI、MCP、聚合数据、实时新闻查询、NBA赛事查询)

报错信息如下: [unsupported] Python 3.1 (mcp-calculator-main) (3) C:\Users(xsshu\AppData\Local\Programs\Python\Python313\python.exe [unsupported] Python 3.1 C:\Users\xsshu\AppData\Local\Programs\Python\Python311\python.exe 这条输出显示了两个 Pyth…

Ragflow 前后端登录逻辑

前端登录逻辑 路由配置: /login 路由指向 /pages/login 组件。登录表单使用 Ant Design 的 Form, Input, 和 Button 组件。 登录表单处理: 使用 useLogin钩子来处理登录请求。密码通过 RSA 加密后再发送到服务器。成功登录后导航至 /knowledge 页面。 …

基于图神经网络的ALS候选药物预测模型设计与实现

基于图神经网络的ALS候选药物预测模型设计与实现 一、任务背景与意义 肌萎缩侧索硬化症(ALS)是一种致命的神经退行性疾病,目前尚无有效治愈方法。传统药物发现流程耗时长、成本高,而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络(GNN)的…

运维打铁: 数据加密与备份恢复策略制定

文章目录 思维导图一、数据加密1. 加密算法选择AES 加密示例(Python)RSA 加密示例(Python) 2. 密钥管理3. 加密范围 二、数据备份1. 备份类型全量备份增量备份差异备份 2. 备份频率3. 备份存储位置 三、数据恢复1. 恢复测试2. 恢复…

AIbase MCP服务库上线:集成服务器、客户端、案例教程等服务

在当今数字化时代,人工智能技术正以前所未有的速度发展,深刻地改变着我们的生活和工作方式。而要充分发挥AI的强大能力,离不开高效的工具和服务支持。今天,就让我们来了解一下一个专注于MCP(Model Context Protocol&am…

QGIS+CesiumIon

前言 QGIS 3.44中,新增了3D 场景新增地球视图模式,通过Cesium ion插件,支持谷歌全球倾斜模型的加载显示。 目录 1 CesiumIon插件安装 2 加载谷歌全球倾斜模型 1、CesiumIon插件安装 点击菜单【Plugins】->【Manage and Install Plugins】…

TEXT Introduction

我们是谁 美国计算机奥林匹克竞赛通过培训、竞赛和国际比赛来促进大学前的计算机学习。 数个教练将会组织、领导、陪伴代表美国参加国际性奥林匹克竞赛的学生。 你可以在 USACO 官网了解更多。 USACO 的目标 USACO 的具体目标包括: 训练美国的队伍并且在下一届奥…

Fluent许可服务器设置教程

Fluent作为一款广泛使用的流体动力学模拟软件,其高效的许可管理系统是确保顺畅运行的关键。为了帮助您更好地掌握Fluent许可服务器的设置方法,本文将为您提供一份详细的设置教程,让您轻松配置,高效运行Fluent软件。 一、Fluent许可…

vue3中实现高德地图POI搜索(附源码)

引言 上一篇文章详细讲解了vue3中实现高德地图地址搜索自动提示(附源码)🔗,本文将重点介绍POI搜索功能的实现。 1. 功能介绍 POI(Point of Interest) 搜索用于查找特定位置或区域内的兴趣点,如餐馆、商场、景点等。…

机器学习在计算机视觉中的应用

引言 计算机视觉(Computer Vision)是人工智能的重要分支,旨在让计算机像人类一样“看懂”图像和视频。近年来,随着深度学习(Deep Learning)的快速发展,计算机视觉在多个领域取得了突破性进展。…

新手向:从零开始Node.js超详细安装、配置与使用指南

什么是Node.js? 简单来说: Node.js 是一个在服务器端运行 JavaScript 的环境。 以前JavaScript只能做网页特效,现在用它就能开发网站后台、命令行工具甚至桌面应用! 第一步:安装Node.js(多系统详解&#x…

VR全景平台的概念和用途

VR全景平台:沉浸式体验篇章 在数字化飞速发展的今天,VR全景平台作为新兴的技术应用平台,逐渐走进我们的日常生活。那么,什么是VR全景平台?众趣科技是否有涉足这一领域?众趣科技VR全景平台又具备哪些独特的…