研究方向:Image Captioning

1. 论文介绍

本文提出ViLU(Vision-Language Uncertainties),一个用于学习视觉语言不确定性量化(UQ)和检测视觉语言模型故障的事后框架。

使用VLMs进行量化(UQ)的标准方法是最大概念匹配(MCM)分数(如果模型给某个类别分的概率最大,那就认为它最有可能是正确答案),但它存在根本性的缺陷:如果多个概念之间存在歧义,原始的最大概念最大化 (MCM) 可能会对错误的预测赋予较高的置信度,并且把模型对最可能类别的置信度作为可靠性指标。

如图所示,视觉语言模型(VLM)误将“爱斯基摩犬”图像分类为“西伯利亚雪橇犬”,而且高置信度得分阻止了错误的检测。

2. 方法介绍

2.1 在视觉语言模型上进行不确定性量化的方法学

采用一种事后方法,仅依赖于视觉和文本嵌入,设计不确定性量化度量。提供不确定性估计而无需修改内部表示、进行微调或依赖于训练期间使用的损失函数。

不确定性受视觉嵌入(低图像质量、模糊特征)、文本嵌入(定义概念难以区分)和跨模态(视觉嵌入和K个候选文本嵌入之间)交互的影响。学习一个全局不确定性表示uθ​(⋅)(预测输入是否会被视觉语言模型误分类)来捕捉上述三种不确定性影响。不确定性模块二元分类任务表示:

输入图像和K个候选文本嵌入表示,输出一个概率值y \in [0,1],表示 VLM 的预测是否错误。

2.2 ViLU框架

通过整合视觉嵌入(Z_v)、预测文本嵌入(Z_{\hat t})和跨注意力生成的特定于图像条件的文本表示(Z_t^{\alpha}),构建任务相关的联合不确定性表征。ViLU将失败预测建模为二元分类问题,采用加权交叉熵损失直接区分正确与错误预测,而非依赖损失预测,从而实现对预训练VLMs的黑盒式后处理。

2.3 训练过程

ViLU在训练和推理过程中同时处理图像-字幕任务和图像-标签任务

图像-标签任务:利用图像和K个目标类别确定图像的预测概念类别,形成一个与批次无关的预测流程。类别的文本表示通过文本模板获得(例如,“一张[类别]的照片”),得到一组固定的文本字幕 [t_j] _{j\in[1...k]}。适用于具有预定义标签的标准分类数据集。

图像-字幕任务:为给定的输入图像分配最相似的字幕,利用图文对\beta =(x_i,t_i)_{i \in\beta}预测相应图像的字幕,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/94450.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/94450.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/94450.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据集笔记:百度地图高德地图坐标互转

1 为什么会有高德坐标系和百度坐标系?根据《测绘法》和国家保密法规,在中国大陆范围内的地理坐标数据必须做加密处理,不允许直接使用 WGS84(openstreetmap)所以出现了GCJ-02 和 BD-09高德、腾讯、谷歌中国都遵循 GCJ-0…

SkyWalking高效线程上下文管理机制:确保调用链中traceId来自同一个请求

SkyWalking Agent 能确保获取到“正确”的 traceId,其核心在于它建立并维护了一套高效的线程上下文管理机制。这套机制确保了即使在复杂的多线程、异步环境下,也能将正确的上下文(包含 traceId)与当前正在执行的代码逻辑关联起来。 其工作原理可以概括为下图所示的流程: …

Kafka-Eagle安装

目录Eagle环境安装Mysql环境准备Kafka环境准备Eagle安装Kafka-Eagle框架可以监控Kafka集群的整体运行情况,在生产环境中经常使用 Eagle环境安装 Mysql环境准备 Eagle的安装依赖于Mysql,Mysql主要用来存储可视化展示的数据 将mysql文件夹及里面所有内…

Matlab系列(005) 一 归一化

目录1、前言2、什么是归一化?3、为什么要进行归一化4、归一化方法详解与Matlab实现5、总结1、前言 ​   归一化技术是数据预处理的核心环节,本文将深度解析主流归一化方法,提供可复现Matlab代码,并探讨其在各领域中的应用场景。…

【K8s】整体认识K8s之namespace

命名空间将资源划分为相互隔离的组。kubectl get namespace/ns系统默认创建四个namespace,分别是default、kube-node-lease、kube-public、kube-system。default 没有指明使用其它命名空间的对象所使用的默认命名空间、kube-system 系统创建对象所使用的命名空间。…

rust语言 (1.88) egui (0.32.1) 学习笔记(逐行注释)(十八) 使用表格

使用表格egui_extras::TableBuilder // Cargo.toml [dependencies] eframe "0.32.1" egui "0.32.1" egui_extras "0.32.1"egui_extras::Column::auto() 列宽根据内容自动计算.resizable(true) 允许用户手动拖动调整列宽 fn main() -> efra…

【C#】构造函数实用场景总结

文章目录前言一、构造函数是什么?二、构造函数的用法1.初始化对象,避免无效状态2 初始化静态成员3 构造函数重载4.构造函数链5. 单例模式,多次实例化保持一个对象6. 依赖注入7. 初始化只读对象前言 构造函数是我们平常编程里经常能碰到的老伙…

LLM预训练架构全解析:从零构建一个语言世界的“操作系统”

导读:作为开发者,我们每天都在import或#include各种库,我们信任这些由无数代码构成的底层依赖。那么,当我们调用一个LLM时,它所依赖的那个更底层的、无形的**“语言操作系统”**,又是如何被“编译”出来的&…

Linux服务测试题(DNS,NFS,DHCP,HTTP)

一,实验拓扑:二,需求APPSRV:主机名:appsrv.example.comip地址:192.168.100.10网关:192.168.100.254网卡为NAT模式STORAGESRV:主机名:storagesrv.example.comip地址&#…

DevOps 简介及就业前景

DevOps 简介及就业前景 目录 DevOps简介核心概念重难点解析具体场景使用就业前景学习路径最佳实践 DevOps简介 什么是DevOps DevOps是Development(开发)和Operations(运维)的组合词,是一种软件开发和IT运维的文化…

《CF1120D Power Tree》

题目描述 给定一棵有 n 个顶点的有根树,树的根为顶点 1。每个顶点都有一个非负的价格。树的叶子是指度为 1 且不是根的顶点。 Arkady 和 Vasily 在树上玩一个奇怪的游戏。游戏分为三个阶段。第一阶段,Arkady 购买树上的一些非空顶点集合。第二阶段&…

CPTS-Agile (Werkzeug / Flask Debug)

枚举 nmap -sC -sV -T4 -Pn -n -p- 10.10.11.203进行常规的网页枚举和测试发现报错信息,‘Werkzeug / Flask Debug’ 测试Export导出功能发现存在路径遍历查看这篇文章 https://book.hacktricks.wiki/zh/network-services-pentesting/pentesting-web/werkzeug.html#…

【网络运维】Shell 脚本编程:while 循环与 until 循环

Shell 脚本编程:while 循环与 until 循环 循环结构简介 循环语句是 Shell 脚本中用于重复执行一条或一组指令的重要工具,直到满足特定条件时停止执行。Shell 脚本中常见的循环语句包括 while、until、for 和 select。本文将重点介绍 while 和 until 两种…

LLM 中评价指标与训练概要介绍

在【LLM】LLM 中增量解码与模型推理解读一文中对 LLM 常见名词进行了介绍,本文会对 LLM 中评价指标与训练概要进行介绍,本文并未介绍训练实操细节,未来有机会再了解~ 一、LLM 如何停止输出 在看 LLM 评价指标前,先看…

Java 20 新特性及具体应用

目录 1. 模式匹配 for switch(预览特性) 2. 记录模式(预览特性) 3. 外部函数与内存 API(预览特性) 4. 矢量 API(孵化器特性) 5. 作用域值(预览特性) 6. …

【STM32】CubeMX(十一):FreeRTOS任务挂起与解挂

这篇文章是 STM32 HAL FreeRTOS 下的任务挂起与恢复机制, 结合 CubeMX 图示与代码,构建了一个 FreeRTOS 控制示例。 本篇目标:创建两个任务: 一个控制蓝灯闪烁(myTask01) 另一个监控按键(Start…

图片预加载:提升Web性能的关键

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

大模型压缩三剑客:量化、剪枝与知识蒸馏全解析

在人工智能飞速发展的今天,大语言模型(LLM)如通义千问、GPT 等已成为推动智能应用的核心引擎。然而,这些模型动辄数十亿甚至上千亿参数,带来了高昂的计算成本和部署门槛。如何在不显著牺牲性能的前提下,让大…

Seaborn数据可视化实战:Seaborn基础图表绘制入门

基础图表绘制:Seaborn入门教程 学习目标 通过本课程的学习,你将掌握如何使用Seaborn库绘制基础图表,包括条形图、折线图和散点图。你将了解Seaborn的基本函数和参数设置,以及如何通过调整这些参数来优化图表的视觉效果。 相关知识…

阿里开源通义万相Wan2.2:视频生成技术的革命性突破

在人工智能视频生成领域,阿里云通义实验室于2025年7月重磅开源了新一代视频生成大模型 Wan2.2,其核心亮点包括人体动作生成的极致精度、电影级美学表达以及高效的资源利用效率,标志着视频生成技术迈入了一个全新的阶段。 一、核心功能:三大模型,覆盖全场景视频生成 Wan2.…