训练数据相关

  • EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation (https://arxiv.org/abs/2508.03497):提出了一种自动化的流程,用于构建服装编辑数据集EditGarment,该数据集包含高质量的指令-图像对,旨在提升服装编辑任务中模型对服装语义和属性依赖的理解能力。使用 Fashion Edit Score,一个语义感知的评估指标,来保证数据质量。
  • Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery (https://arxiv.org/abs/2508.03127):为了促进卫星图像的自然语言交互,构建了Landsat30-AU数据集,该数据集包含澳大利亚30米分辨率的Landsat卫星图像,跨越36年。该数据集包括图像描述对和视觉问答样本,通过迭代优化和人工验证来确保数据质量。
  • ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756):为了提升大模型在自动驾驶系统中的应用,提出了一个多模态知识编辑数据集ADS-Edit,包含了真实场景、多种数据类型和全面的评估指标,旨在提高模型对交通知识、复杂路况和车辆状态的理解能力。
  • ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164):提出ChartCap,一个大规模的图表数据集,包含565K真实世界的图表图像以及详细的描述。提出了一种新的评价指标,Visual Consistency Score,通过比较从描述中生成的图表和原始图表之间的相似性来评估描述的质量。【注:截止发稿日并未公布数据集】
  • OpenLifelogQA: An Open-Ended Multi-Modal Lifelog Question-Answering Dataset (https://arxiv.org/abs/2508.03583):为了支持对个人生活数据的问答研究,提出了一个新的lifelog QA数据集OpenLifelogQA,该数据集基于一个为期18个月的lifelog数据集构建,专注于开放式和实用的QA,在日常lifelog使用中具有实际应用。
  • VLJailbreakBench (https://arxiv.org/abs/2411.00827):构建了一个安全基准测试VLJailbreakBench,包含3,654个多模态越狱样本,通过评估在各个已发布的 VLM 模型上的漏洞揭示了当前安全对齐的重大差距。
  • WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image (https://arxiv.org/abs/2412.02141):构建了一个大规模形态感知基准 WSI-Bench,包含来自 30 种癌症类型的 9,850 个 WSI 的 18 万个 VQA 对,旨在评估 MLLM 对病理诊断的关键形态特征的理解,并针对其病理环境开发了两个专业的 WSI 指标:WSI-Precision 和 WSI-Relevance。
  • Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI (https://arxiv.org/abs/2505.05895):引入了一个视觉语言框架,以促进对汽车 UI 的理解和交互,并促进在不同 UI 设计之间的无缝适应,并发布了包含 4,208 个注释的 998 张图像的开源数据集 AutomotiveUI-Bench-4K。

训练策略

  • VRPRM: Process Reward Modeling via Visual Reasoning (https://arxiv.org/abs/2508.03556):提出VRPRM,一个通过视觉推理的过程奖励模型,并设计了一个有效的两阶段训练策略。通过少量CoT-PRM数据和非CoT PRM数据,VRPRM可以超越非思考PRM,并在BoN实验中实现高达118%的相对性能提升。
  • VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351):针对视觉语言模型(VLM)的模态差异问题,提出了一种新颖的重要性感知量化后训练框架VLMQ,通过优化重要性感知的目标函数,增强Hessian矩阵,并进行高效的token级扰动计算,从而提升量化性能。
  • Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models (https://arxiv.org/abs/2411.18375):介绍了一种新的视频扩散模型压缩方法,采用保留个体内容和运动动力学的剪枝和一致性损失,通过移除浅层中的冗余块同时保留更多深层,并提出个体内容和运动动力学(ICMD)一致性损失来实现可比拟的生成性能。
  • V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models (https://arxiv.org/abs/2508.03254):针对文本到视频(T2V)模型部署在资源受限环境中的需求,提出了一种有效的蒸馏方法ReDPO,结合了DPO和SFT,同时提出了一个新颖的V.I.P.框架,用于过滤和管理高质量的配对数据集,以及用于校准训练的逐步在线方法。
  • Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning (https://arxiv.org/abs/2508.03102):提出了Causal CLIP Adapter (CCA),该框架使用无监督独立成分分析 (ICA) 显式地解开从 CLIP 提取的视觉特征,并增强 CLIP 的跨模态对齐,从而改进少样本学习。
  • Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback (https://arxiv.org/abs/2507.20766):通过“推理-渲染-视觉反馈”(RRVF)框架,使 MLLM 仅从原始图像中学习复杂的视觉推理,该框架基于“验证不对称性”原则,减少了对图像文本监督的依赖。

大模型的行业应用

  • Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651):通过与视障人士的探索性研究,评估了ChatGPT在实时视频场景中为视障人士提供帮助的能力,发现当前系统在动态场景中存在不足,并讨论了辅助视频AI代理的未来发展方向。
  • Guided Reality: Generating Visually-Enriched AR Task Guidance with LLMs and Vision Models (https://arxiv.org/abs/2508.03547):提出了一个完全自动化的AR系统Guided Reality,该系统基于逐步指令生成嵌入式和动态视觉指导。集成了LLM和视觉模型,以从用户查询生成多步骤指令,识别适当类型的视觉指导,提取关于现实世界中关键交互点的空间信息,并在物理空间中嵌入视觉指导以支持任务执行。
  • R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation (https://arxiv.org/abs/2508.03426):构建了一个大规模的多模态医学知识图谱M3KG,并提出了一个基于知识图谱和LLM的X光报告生成框架,以提高报告质量并减少幻觉。
  • When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365):介绍了一种新的对抗性音频攻击框架WhisperInject,该框架可以通过在音频输入中嵌入难以察觉的扰动来操纵音频语言模型生成有害内容,揭示了一种可行的、隐蔽的操纵AI行为的方法。
  • CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment (https://arxiv.org/abs/2508.03360):提出了CogBench,旨在评估大型语言模型(LLM)在基于语音的认知障碍评估中的跨语言和跨站点泛化能力,为构建临床实用且具有语言鲁棒性的语音认知评估工具提供关键步骤。
  • A Closed-Loop Multi-Agent Framework for Aerodynamics-Aware Automotive Styling Design (https://arxiv.org/abs/2508.03370):提出了一个由LLM驱动的多智能体框架,可以自动执行从模糊需求到3D概念模型性能验证的端到端工作流程,旨在在汽车外观设计中平衡主观美学和客观空气动力学性能。
  • ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756):针对 LMM 直接应用于 ADS 的挑战,提出了 ADS-Edit,一个专为 ADS 设计的多模态知识编辑数据集,其中包含各种真实世界的场景、多种数据类型和全面的评估指标。
  • CAMEF: Causal-Augmented Multi-Modality Event-Driven Financial Forecasting by Integrating Time Series Patterns and Salient Macroeconomic Announcements (https://arxiv.org/abs/2502.04592):提出了 CAMEF(因果增强多模态事件驱动金融预测),这是一个多模态框架,通过因果学习机制和基于 LLM 的反事实事件增强技术,有效地整合了文本和时间序列数据,用于因果增强金融预测。

文生图/文生视频

  • LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation (https://arxiv.org/abs/2508.03694):提出了LongVie,一个用于可控长视频生成的端到端自回归框架。LongVie引入了统一的噪声初始化策略和全局控制信号归一化,以确保时间一致性,并采用多模态控制框架和降级感知训练策略,以减轻视觉退化。
  • READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation (https://arxiv.org/abs/2508.03457):提出了READ,第一个基于实时扩散-transformer的说话头生成框架。通过时间VAE学习时空高度压缩的视频潜在空间,并通过异步噪声调度器(ANS)确保生成视频片段的时间一致性。
  • Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation (https://arxiv.org/abs/2508.03320):提出了Skywork UniPic,一个15亿参数的自回归模型,它在一个单一架构中统一了图像理解、文本到图像生成和图像编辑,而不需要特定于任务的适配器或模块间连接器。
  • AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation (https://arxiv.org/abs/2508.00733):提出了AudioGen-Omni,一个基于多模态扩散转换器(MMDit)的统一方法,能够生成与输入视频连贯同步的高保真音频、语音和歌曲。采用了一种新的联合训练模式,无缝地整合了大规模的视频-文本-音频语料库。
  • TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes (https://arxiv.org/abs/2503.23461):提出了一种新的多视觉文本渲染方法 TextCrafter,该方法采用渐进式策略将复杂的视觉文本分解为不同的组成部分,同时确保文本内容与其视觉载体之间具有强大的对齐。

底层模型架构

  • MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention (https://arxiv.org/abs/2507.22805):设计了一种新型视觉框架 MoCHA,集成了四个视觉骨干网络(CLIP、SigLIP、DINOv2 和 ConvNeXt)以提取互补的视觉特征,并配备了一个稀疏的混合专家连接器 (MoEC) 模块,以及一个分层分组注意力 (HGA) 机制,用于编码的视觉特征。
  • UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying (https://arxiv.org/abs/2508.03142):介绍了一种新颖的免训练框架 UniEdit-I,通过三个迭代步骤使统一的 VLM 具备图像编辑能力:理解、编辑和验证。

其他

  • Can Large Vision-Language Models Understand Multimodal Sarcasm? (https://arxiv.org/abs/2508.03654):评估了大型视觉语言模型(LVLMs)在多模态讽刺分析(MSA)任务中的表现,发现其在视觉理解和概念知识方面存在局限性,并提出了一个无训练框架,整合了深入的对象提取和外部概念知识,以提高模型在多模态上下文中解释和解释讽刺的能力。
  • Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644):提出了Double-Bench,一个新的大规模、多语言、多模态评估系统,能够对文档RAG系统中的每个组件进行细粒度的评估。该系统包含3,276份文档(72,880页)和5,168个跨6种语言和4种文档类型的单跳和多跳查询。
  • LaTCoder: Converting Webpage Design to Code with Layout-as-Thought (https://arxiv.org/abs/2508.03560):提出LaTCoder,一种新颖的方法,通过Layout-as-Thought (LaT)增强代码生成过程中网页设计的布局保持。首先将网页设计划分为图像块,然后使用CoT方法提示MLLM为每个块生成代码,最后应用两种组装策略来确定最佳输出。
  • Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection (https://arxiv.org/abs/2508.03539):提出ARAS,一种语言条件下的自回归异常合成方法,通过token锚定的潜在编辑将本地的、文本指定的缺陷精确地注入到正常图像中。此外,还提出了QARAD框架,采用动态加权策略,通过计算图像-文本相似度得分来强调高质量的合成样本。
  • UniME (https://arxiv.org/abs/2504.17432):提出 UniME(通用多模态嵌入),一种新颖的两阶段框架,该框架利用 MLLM 来学习各种下游任务的区分性表示,并设计了“硬负例增强指令微调”,从而提高判别能力。
  • What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study (https://arxiv.org/abs/2506.12537):系统地研究了语音分词器设计在以 LLM 为中心的 SLM 中的作用,并引入多令牌预测 (MTP) 到 SLM 中,从而使每个隐藏状态能够解码多个语音令牌。

编辑精选

  1. Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644):该论文提出了一个更全面的文档RAG评估基准,解决了当前评估方法在真实性和完整性方面的不足,对于推动文档RAG系统的发展具有重要意义。
  2. Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651):这项工作通过实际用户测试,揭示了现有视觉模型在辅助视障人士方面的局限性,对于改进相关应用具有指导意义。
  3. When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365):该论文提出了一种新颖的对抗性攻击方法,能够通过音频输入操纵AI模型生成有害内容,突显了音频安全的重要性,并为防御此类攻击提供了新的视角。
  4. ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164):该论文针对图表描述中的幻觉问题,提出了一个高质量的数据集和评估指标,有助于推动更准确的图表理解和生成。
  5. VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351):在资源受限情况下,有效地量化和部署大型视觉-语言模型仍然是一项具有挑战性的任务,该论文通过利用 Hessian 谱信息来识别和减轻不同模态对量化敏感的影响,实现有效的视觉-语言模型量化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94513.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94513.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/94513.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4、docker数据卷管理命令 | docker volume

1、命令总览命令作用出现频率备注★ docker volume create新建卷高-d 指定驱动,-o 指定驱动选项★ docker volume ls列出卷高--filter danglingtrue 查孤儿卷★ docker volume inspect查看卷详情高输出 JSON,可加 --format★ docker volume rm删除卷高只…

计数组合学7.14(对偶 RSK 算法)

7.14 对偶 RSK 算法 存在 RSK 算法的一种变体,其与乘积 ∏i,j(1xiyj)\prod_{i,j}(1 x_{i}y_{j})∏i,j​(1xi​yj​) 的关系类似于 RSK 算法本身与 ∏i,j(1−xiyj)−1\prod_{i,j}(1 - x_{i}y_{j})^{-1}∏i,j​(1−xi​yj​)−1 的关系。我们称此变体为对偶 RSK 算法…

C语言中的进程、线程与进程间通信详解

目录 引言 基本概念 1. 进程(Process) 2. 线程(Thread) 线程编程实战 1. 常见线程库 2. 合理设置线程数 3. pthread 创建线程 线程同步机制 1. 互斥锁 pthread_mutex_t 2. 条件变量 pthread_cond_t 3. 读写锁 pthread…

[假面骑士] 555浅谈

假面骑士555(faiz)是我最先接触的一部平成系列的假面骑士,同时也是我个人最喜欢的一部假面骑士。一、大纲简介震惊,人类最新的进化形态——奥菲一诺,横空出世!日本的顶级财团,Smart Brain,的前任社长&#…

Vue Router 路由的创建和基本使用(超详细)

一、路由的基本概念 你是否好奇单页应用(SPA)是如何在不刷新页面的情况下实现页面切换的?这就离不开路由的功劳。 路由:本质是一组 key-value 的对应关系,在前端领域中,key 通常是路径,value …

深入理解设计模式:策略模式的艺术与实践

在软件开发中,我们经常会遇到需要根据不同情况选择不同算法或行为的场景。传统的做法可能是使用大量的条件语句(if-else或switch-case),但随着需求的增加和变化,这种硬编码的方式会导致代码难以维护和扩展。策略模式&a…

概率/期望 DP llya and Escalator

题目链接:Problem - D - Codeforces 看了这篇文章来的:【算法学习笔记】概率与期望DP - RioTian - 博客园 这篇博客写得挺好的,讲了一些常见方法,概率 / 期望的题多练练就上手了。 题目大意: n 个人排队上电梯&…

大陆电子MBDS开发平台转到其他国产控制器平台产生的问题记录

u8_StComLowSpdGearSwt变量为例,之前用的时候只有输入,没什么实际意义,导致新环境下编译报错,缺少声明,解决办法:注释掉输入模块。今天解决的另一个比较大的问题,不同模型函数公用函数模块生成代…

机器学习模型调优实战指南

文章目录模型选择与调优:从理论到实战1. 引言2. 模型评估:为选择提供依据2.1 偏差-方差权衡2.2 数据集划分与分层抽样2.3 交叉验证(Cross-Validation)2.4 信息准则(AIC / BIC)3. 超参数调优:让模…

【教程】Unity CI/CD流程

测试机:红帽 Linux8 源码仓库:Gitee - MrRiver/Unity Example   系统环境准备 1)yum 源 sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-8.repo sudo sed -i s/\$releasever/8/g /etc/yum.repos…

文献阅读 | Briefings in Bioinformatics | Hiplot:全面且易于使用的生物医学可视化分析平台

文献介绍文献题目: Hiplot:一个综合且易于使用的 Web 服务,用于增强出版物准备的生物医学数据可视化 研究团队: Openbiox/Hiplot 社区 发表时间: 2022-07-05 发表期刊: Briefings in Bioinformatics 影响因…

【数字图像处理系列笔记】Ch04:灰度变换与空间域图像增强(2)

目录 一、空域滤波基础 一、空域滤波的基本概念 二、空域滤波的数学原理 三、空域滤波器的分类与典型示例 (一)线性滤波器(Linear Filter) (二)非线性滤波器(Non-linear Filter&#xff0…

AI浪潮下,FPGA如何实现自我重塑与行业变革

引言:AI 与 FPGA,新时代的碰撞 2025 年,人工智能技术迎来爆发式增长,大模型、生成式 AI 和多模态技术持续突破,人形机器人量产元年正式开启,自动驾驶商业化进程加速,工业数字化转型全面铺开(1)…

系统集成项目管理工程师【第十一章 规划过程组】定义范围、创建WBS、规划进度管理和定义活动篇

系统集成项目管理工程师【第十一章 规划过程组】定义范围、创建WBS、规划进度管理和定义活动篇 一、定义范围:给项目画好"边界线" 定义范围是明确项目和产品"做什么、不做什么"的过程,直接影响后续所有工作的方向。 1. 核心概念与作…

Spring Boot 参数校验全指南

Spring Boot 参数校验全指南 在 Web 开发中,参数校验是保障接口安全性和数据合法性的关键环节。手动编写校验逻辑不仅繁琐,还容易遗漏边界情况。Spring Boot 整合了 validation 工具,提供了一套简洁高效的参数校验方案,可快速实现…

常用技术资料链接

1.team技术 https://zhuanlan.zhihu.com/p/11389323664 https://blog.csdn.net/Lucky_Lu0/article/details/121697151 2.bond切换主备 https://www.xgss.net/3306.html 3.ssh详解: https://cloud.tencent.com/developer/news/105165 https://blog.huochengrm.c…

【Spring Cloud】-- 注册中心

文章目录1. 什么是注册中心2. CPA理论1. 什么是注册中心 注册中心有三种角色: 服务提供者(Server) :提供接口给其他微服务的程序。服务消费者(Client):调用其他微服务提供的接口。**服务注册中…

go-zero 详解

go-zero 详解 go-zero 是一个基于 Go 语言的微服务框架,由字节跳动团队开发并开源,旨在帮助开发者快速构建高可用、高性能的微服务架构。它集成了丰富的组件,简化了微服务开发中的常见问题(如服务注册发现、配置管理、限流熔断等&…

接口自动化框架封装之统一请求封装及通过文件实现接口关联

接口自动化测试框架封装目的:简化自动化框架的落地,提高投入和产出比,只要一个人封装好框架,另外的测试通过写yaml测试用例即可实现接口自动化1.统一请求的封装去除多余重复的代码可跨py文件实现通过一个session来自动关联有cookie的接口设置统一公共参数,统一文件处理,统一异常…

Vue 最佳实践:如何利用唯一 key 值保证 el-table 动态渲染的稳定性

📋 问题描述 在Vue 2.0 ElementUI项目的偏置条件管理页面中,每次切换到"内规拉偏"菜单时,表格样式会发生崩溃,导致表格布局异常、列宽错乱、固定列显示不正确等问题。 🔍 问题分析 通过深入分析代码&#x…