快速看一下Kwai Keye-VL的技术报告,

模型架构

Keye-VL和经典的MLLM架构类似,由ViT+MLP+LLM组成。视觉侧有两点可以看看:

1、具有原生分辨率的视觉编码器

提到,MLLMs使用预训练的固定分辨率ViT作为视觉编码器。然而,这些ViT通常是为处理粗粒度的图像-文本匹配任务而设计的,而MLLMs需要处理更细粒度的生成任务。因此,Kwai Keye-VL模型实现了一个原生分辨率的ViT,以自然地处理原始分辨率的图像,避免复杂的图像拼接或分割操作。(ps:前期介绍的《Kimi-VL的MoonViT:视觉编码器》中好像也是个思想)。

具体实现,Kwai Keye-VL的ViT是基于SigLIP-400M-384-14进行初始化。为了保持图像的结构完整性和细节,模型采用了插值技术将固定的位置嵌入扩展为自适应分辨率的位置嵌入,并引入了二维旋转位置嵌入(RoPE)来增强视觉信息的建模能力。

2、视觉编码

为了确保语言解码器能够充分感知和理解图像和视频中的视觉信号,模型为图像和视频建模保留了足够的token缓冲区。

对于不同分辨率的图像,每个图像的总token数设置为16384,这足以覆盖超过一百万像素的图像,并帮助模型在大多数情况下看到图像的细节。对于视频建模,模型设计了一种动态分辨率策略,平衡了最大帧数和总token数。

训练策略

预训练

1、训练数据概述

模型使用了超过600B token,来源包括公共数据集和专有的内部数据。训练数据主要涵盖六个类别:图像字幕、OCR和VQA、定位和计数、交错文本-图像、视频理解和纯文本数据。

2、预训练管道

预训练采用了四阶段的渐进式训练策略,如下图:

  • 阶段0:视觉预训练

    预训练视觉编码器,以使其适应内部数据分布并支持动态分辨率。

  • 阶段1:跨模态对齐

    语言模型从Qwen3-8B初始化,在此阶段,视觉和语言模型的参数被冻结,专注于优化投影MLP层。通过大规模数据集建立跨模态特征的强对齐,为后续学习阶段奠定基础。

  • 阶段2:多任务预训练

    解冻所有模型参数,进行端到端的优化,使用多样化的多任务训练数据。数据涵盖了常见的视觉-语言任务,如图像字幕、OCR、定位、VQA和交错图像-文本数据,显著增强了模型的基本视觉理解能力。

  • 阶段3:退火

    在此阶段,模型在精选的高质量数据上进行微调,目标是解决在大规模训练中缺乏高质量样本暴露的问题。通过优化的学习策略和数据混合,进一步细化模型的细微理解能力。

  • 模型合并

    在预训练的最后阶段,探索同质-异质合并技术,通过平均不同数据混合的模型权重,减少整体偏差并增强模型鲁棒性。

后训练

后训练过程分为两个阶段,训练模型的综合能力。初始阶段专注于建立自然图像理解和文本交互的基础性能,后续阶段则集中于逐步增强模型的复杂推理能力。

1、无推理训练:建立基础性能

这一阶段通过两个连续步骤建立模型在非推理场景中的核心性能和稳定性。由sft+mpo两步骤构成,

1.1、SFT

SFT数据候选池包含超过500万个多模态QA样本。为了确保任务的多样性和数据的质量,采取了以下方法:

  • 任务多样性:使用TaskGalaxy框架,将数据分类为70,000种不同的多模态任务类型。
  • 数据挑战性:通过MLLMs生成多个推理路径,测量每个样本的复杂性,过滤过于简单的样本。
  • 数据可靠性:人类注释者为训练集中的图像和视频精心制作字幕。

训练策略包括动态学习率,并在训练后期进行退火处理,以提高性能。

1.2、混合偏好优化(MPO)

MPO可以看看前期文章(《多模态偏好数据集生成与混合偏好优化(MPO)方法》),这里不展开。

在SFT之后,模型通过MPO进一步优化其性能。数据集包括开源样本、重建偏好样本、自我改进样本、仅文本样本和人类注释样本。MPO算法用于优化模型在非推理环境中的整体性能。

2、推理训练:复杂认知

这一阶段通过引入混合模式的CoT冷启动和强化学习机制,显著增强模型的多模态感知、推理和“思考与图像”能力。分下面三步:

2.1、CoT冷启动

此步骤初始化模型的链式思维能力,结合长CoT数据和指示性数据,促进复杂问题的结构化思考,同时保持开放任务的风格多样性和响应灵活性。

2.2、混合模式RL

在CoT冷启动的基础上,使用RL进一步增强模型的能力,特别是在多模态感知、推理和数学推理方面。通过GRPO算法,模型在短视视频理解等任务上表现出显著的性能提升。

2.3、迭代对齐

最后一步通过迭代对齐来解决重复崩溃和逻辑错误问题。使用拒绝采样数据,通过多轮迭代优化模型,使其能够根据任务难度自动选择合适的推理模式。

数据概览

阶段子阶段数据集组成数据类型数据来源和构建方法
无推理训练:建立基础性能监督微调(SFT)超过500万个多模态QA样本多样化的任务类型,包括复杂的推理路径使用TaskGalaxy框架分类为70,000种不同的多模态任务类型;通过MLLMs生成多个推理路径,过滤过于简单的样本;人类注释者为图像和视频制作字幕。
混合偏好优化(MPO)400,000个开源样本
50,000个重建偏好样本
10,000个自我改进样本
90,000个仅文本样本
30,000个人类注释样本
开源数据、重建偏好数据、自我改进数据、仅文本数据和人类注释数据- 开源数据进行简单去重和过滤,保留400,000个样本。
- 重建偏好数据:使用现有多模态偏好数据集(如MM-RLHF),并使用开源大模型生成高质量负例。
- 强化微调(RFT)数据:针对SFT模型的弱点构建偏好对。
- 仅文本数据:包括90,000个内部仅文本偏好对。
- 人类注释数据:使用MM-RLHF流程生成30,000个人类注释偏好对。
推理训练:复杂认知的核心突破CoT冷启动330,000个非推理样本
230,000个推理样本
20,000个自动推理样本
100,000个代理推理样本
长CoT数据和指示性数据,结合推理和非推理数据结合长CoT数据和指示性数据,促进复杂问题的结构化思考。
混合模式RL多模态感知数据
多模态推理数据
基于文本的数学推理数据
代理推理数据
MMPR、MM-Eureka等数据集,DeepEyes数据集中的47,000个样本使用MMPR、MM-Eureka等数据集,以及DeepEyes数据集中的样本,通过GRPO算法增强模型的能力。
迭代对齐来自指令跟随、OCR、数学、图表、计数、仅文本内容、安全和认知领域的拒绝采样数据拒绝采样数据,用于选择“好案例”和“坏案例”通过多轮迭代,选择“好案例”和“坏案例”来构建偏好对,使用MPO算法更新模型。

实验

  • ViT的零样本图像分类

  • 公共基准测试

参考文献:Kwai Keye-VL Technical Report,https://arxiv.org/pdf/2507.01949

repo:https://github.com/Kwai-Keye/Keye

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/913736.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/913736.shtml
英文地址,请注明出处:http://en.pswp.cn/news/913736.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端-CSS-day2

目录 1、后代选择器 2、子代选择器 3、并集选择器 4、交集选择器 5、伪类选择器 6、超链接伪类 7、CSS特性-继承性 8、CSS特性-层叠性 9、CSS特性-优先级 10、优先级-叠加计算 11、Emmet写法 12、背景图 13、背景图平铺方式 14、背景图位置 15、背景图缩放 16、…

米思齐2.0 3.0 mixly arduino 编程软件下载安装及详情使用指南 导入库文件方法 支持8266 esp32

一、米思齐软件下载及安装 1、 米思齐软件下载 https://item.taobao.com/item.htm?id883253312209 2、软件版本简单说明: a、 Windows版本(建议win10及以上系统使用): 一键更新完整版 2.8GB-3GB:下载后解压即可使…

结构体指针:使用结构体指针访问和修改结构体成员。

知识点结构体指针Employee *p; 保存结构体的地址&#xff1b;p->member 用箭头运算符访问或修改成员。数组与指针Employee *emps malloc(N * sizeof *emps); 动态创建结构体数组&#xff1b;p < emps N 与 p 配合遍历。scanf 与数组退化p->name 是 char name[50] 的…

支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

支持零样本和少样本的文本到语音48k star的配音工具&#xff1a;GPT-SoVITS-WebUI 官网&#xff1a;RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning) 用户手册&#xff1a;GPT-SoVITS指南 功能 零样本文本到语…

基于odoo17的设计模式详解---备忘模式

大家好&#xff0c;我是你的Odoo技术伙伴。在开发复杂的业务流程时&#xff0c;我们有时会遇到这样的需求&#xff1a;在对一个对象进行一系列复杂操作之前&#xff0c;保存其当前状态&#xff0c;以便在操作失败或用户希望撤销时&#xff0c;能够一键恢复到操作之前的样子。或…

基于Web门户架构的监狱内网改版实践:值班排班系统设计与信创适配探讨

面向监狱内网改版场景的门户平台技术架构与智能排班实践关键词&#xff1a;监狱内网改版、监狱内部网站改版、值班排班系统、信创适配、智能门户架构一、场景背景与问题分析 在信创国产化、等级保护合规、政务集约化趋势持续推进的背景下&#xff0c;传统监狱内部网站普遍面临如…

二分查找篇——在排序数组中查找元素的第一个和最后一个位置【LeetCode】

34. 在排序数组中查找元素的第一个和最后一个位置 一、算法逻辑&#xff08;逐步通顺讲解每一步思路&#xff09; 该算法用于在一个升序排列的数组 nums 中查找某个目标值 target 的第一个出现的位置和最后一个出现的位置。 ✅ 1️⃣ 定义 lower_bound 函数 def lower_boun…

【深度学习新浪潮】AI在材料力学领域的研究进展一览

一、材料力学的研究范畴 材料力学是固体力学的核心分支,聚焦于材料在载荷作用下的变形、失效规律及性能优化,其核心任务是揭示材料的强度、刚度和稳定性机制。具体研究内容包括: 基本力学行为:分析杆、梁、轴等结构在拉伸、压缩、弯曲、扭转等载荷下的应力分布与应变响应。…

WPF之命令

命令的定义&#xff1a;命令与事件的区别&#xff1a;命令是具有约束性的。命令还可以控制接收者"先做校验&#xff0c;再保存&#xff0c;再关闭"。命令&#xff1a;WPF的命令&#xff0c;实际上就是实现了ICommand接口的类&#xff0c;平时使用最多的是RoutedComma…

百度文心一言开源大模型ERNIE-4.5-0.3B-PT深度测评

号外号外&#xff01;6月30号&#xff0c;百度文心一言官宣开源ERNIE 4.5大模型&#xff01;&#xff01;&#xff01; 一收到这个消息&#xff0c;博主就立马从GitCode拉了个模型&#xff0c;本地私有化部署体验了一下&#xff0c;一个字&#xff0c;酷&#xff01; 鉴于绝大…

零基础,使用Idea工具写一个邮件报警程序

打开idea&#xff0c;创建一个project打开文件目录下的pom.xml文件&#xff0c;添加下面的内容安装依赖&#xff0c;等待下载完成<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-mail</artifactId> &…

字体 Unicode 区块字符展示 PDF 生成器

Unicode 字体字符集可视化工具 - 代码介绍 项目概述 这个工具是一个用于分析和可视化字体文件中包含的 Unicode 字符的实用程序&#xff0c;能够扫描指定字体文件&#xff0c;提取其中包含的所有 Unicode 字符&#xff0c;并按 Unicode 区块分类生成 PDF 文档&#xff0c;直观展…

第4章:实战项目一 打造你的第一个AI知识库问答机器人 (RAG)

各位老铁&#xff0c;欢迎来到我们专栏的第一个实战项目。 在过去的三个章节里&#xff0c;我们已经完成了所有的理论储备和环境搭建。我们理解了LLM的本质&#xff0c;掌握了Prompt Engineering的要领&#xff0c;洞悉了Embedding和向量数据库的魔力&#xff0c;并且熟悉了La…

身份证识别api-便捷生活与安全社会的双重保障

身份证识别技术是人工智能和图像处理领域的杰出产物之一&#xff0c;正逐步渗透到我们生活的方方面面。而最直观的作用就是简化身份证验证流程。现如今&#xff0c;无论是银行开户、酒店入住还是政务办理、线上支付&#xff0c;都需要输入 身份证信息进行身份验证&#xff0c;传…

跨国企业进入中国市场:如何利用亚马逊云科技文档 MCP 服务器解决区域差异问题

业务场景 想象一下&#xff0c;您是一家美国科技公司的 IT 架构师&#xff0c;公司刚刚决定将业务扩展到中国市场。作为技术负责人&#xff0c;您需要规划如何将现有的基于亚马逊云科技的应用迁移到中国区域。然而&#xff0c;您很快发现中国区的云服务环境与您熟悉的全球区域…

WPF使用WebBrowser 解决href标签target=_blank在浏览器窗口打开新链接而非窗体内部打开的问题

前言 最近在WPF中使用WebBrowser控件显示网页的时候遇到一个问题,由于网页里面有大规模的连接标签使用了target=_blank的属性,导致打开的网页不是在我们的程序内部,而是调用系统浏览器打开了我们的网页内容,这种情况非常的影响用户体验。于是就有了这篇文章内容。本文将详细…

制作MikTex本地包可用于离线安装包

MikTex安装包版本是basic-miktex-24.1-x64.exe。注&#xff1a;basic版本表示只安装MikTex基本包&#xff0c;不安装全部包。在能够联网的电脑上安装MikTex软件后&#xff0c;可以按以下步骤制作本地包库。一、制作本地包库1、新建一个文件夹&#xff0c;比如在D盘新建miktex-l…

Redis基础的介绍与使用(一)(Redis简介以及Redis下载和安装)

0 引言 本系列用于和大伙儿一起入门Redis&#xff0c;主要包括Redis的下载&#xff0c;分别在终端&#xff0c;图形显示界面以及JAVA代码中进行使用&#xff0c;适合给需要快速了解Redis是什么以及上手使用的朋友们&#xff0c;希望我用最简单的语言来讲清楚相关内容&#xff…

七牛云C++开发面试题及参考答案

智能指针的原理及应用场景是什么&#xff1f; 智能指针是 C 中用于管理动态分配内存的工具&#xff0c;其核心原理是通过 RAII&#xff08;资源获取即初始化&#xff09;技术&#xff0c;将堆内存的生命周期与对象的生命周期绑定&#xff0c;从而避免手动管理内存带来的内存泄…

【Python办公】Excel横板表头转竖版通用工具(GUI版本)横向到纵向的数据重构

目录 专栏导读前言项目概述功能特性技术栈核心代码解析1. 类结构设计2. 界面布局设计3. 滚动列表实现4. 数据转换核心逻辑5. 预览功能实现设计亮点1. 用户体验优化2. 技术实现优势3. 代码结构优势使用场景扩展建议总结完整代码结尾专栏导读 🌸 欢迎来到Python办公自动化专栏—…