想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

视频号(直播分享):sphuYAMr0pGTk27  抖音号:44185842659

现有视觉语言模型(VLMs)在提升输入图像分辨率以优化文本密集型图像理解任务性能时,面临视觉编码器效率低下的核心问题:主流视觉编码器(如 ViTs)在高分辨率下会产生大量 tokens,导致编码延迟显著增加,同时过多 tokens 还会延长大模型的预填充时间,最终使得模型的首 token 生成时间(TTFT)大幅上升,难以平衡分辨率、延迟与精度三者关系。为解决这一问题,Apple 团队提出 FastVLM 模型,其核心创新在于引入新型混合视觉编码器 FastViTHD,通过优化视觉编码流程与 token 生成机制,在无需额外 token 修剪操作的前提下,仅通过缩放输入图像即可实现分辨率、延迟与精度的最优权衡。

FastVLM 的设计围绕视觉编码器与大模型的协同优化展开。在视觉编码器层面,团队首先探索了 FastViT 混合架构在 VLM 中的应用,发现其凭借卷积组件的原生分辨率缩放能力与 Transformer 块的高质量 token 生成特性,展现出显著优势。如 表 1 所示,当 FastViT 输入分辨率缩放至 768×768 时,能生成与 ViT-L/14(336×336 分辨率)相同数量的视觉 tokens,但在 TextVQA、DocVQA 等文本密集型基准测试中性能更优,且编码速度更快 —— latency 仅为 34.5ms,远低于 ViT-L/14 的 127.4ms,同时参数规模仅为 ViT-L/14 的 1/8.7。为进一步提升高分辨率场景下的效率,团队对 FastViT 进行架构优化,提出 FastViTHD:通过增加额外下采样阶段,使自注意力层在 32 倍下采样的张量上运行(而非现有模型的 16 倍),最终生成的 tokens 数量比 FastViT 减少 4 倍,比 ViT-L/14(336 分辨率)减少 16 倍。表 3 数据显示,FastViTHD 虽参数规模仅 125M(为 ViT-L/14 的 1/2.4),但在 38 项多模态零样本任务中平均性能与 ViT-L/14 持平,且编码 latency 仅 6.8ms,是 ViT-L/14 的 1/6.9,同时在检索任务上的平均性能还优于混合架构 ViTamin-L。

在模型性能与效率的平衡验证中,图 1 通过对比 FastViTHD 与 ViT-L/14、SigLIP-SO400M 等主流视觉编码器在不同大模型(Qwen2-0.5B、Vicuna-7B)下的表现,直观展现了 FastVLM 的优势:在 Qwen2-0.5B 大模型搭配下,FastViTHD 对应的 Avg-5 VLM 评估分数达 62%,而 TTFT 仅约 400ms,是 ViT-L/14(TTFT 约 800ms,分数 52%)的 1/2,同时参数规模更小(标记尺寸对应参数数量,FastViTHD 标记显著小于 ViT-L/14)。图 4 则进一步通过帕累托最优曲线对比 FastViTHD 与 FastViT 的性能 - 延迟关系:在相同 TTFT 预算下,FastViTHD 对应的 Avg-5 分数比 FastViT 高 2.5 个百分点以上;若目标性能一致,FastViTHD 可实现最高 3 倍的 TTFT 加速,且这一优势在不同分辨率与大模型规模组合下均稳定存在。

FastVLM 在静态与动态分辨率策略的选择上也有明确结论。图 6 显示,当输入分辨率未达到极端值(如 1536×1536)时,直接将模型输入分辨率设置为目标分辨率的静态策略,比 AnyRes 动态分块策略(如 768×768 拆分为 2×2、3×3 块)更优 —— 相同 TTFT 下静态策略的 Avg-5 分数更高,仅在 1536×1536 分辨率且分块数量较少(2×2)时,动态策略才展现出一定竞争力,这主要源于极端分辨率下的内存带宽限制。此外,表 5 对比 FastViTHD 与现有 token 修剪方法(如 ViT-L/14 M³、VisionZip)发现,FastViTHD 无需复杂的 token 修剪机制,仅通过降低输入分辨率(如 256×256)即可生成低至 16 个的视觉 tokens,且在 GQA(60.6)、TextVQA(53.1)等基准测试中分数高于多数修剪方法(如 ViT-L/14 M³ 16 个 tokens 时 GQA 仅 58.0),验证了其架构设计的高效性。

在与现有主流 VLM 的对比中,FastVLM 展现出显著的性能 - 效率优势。表 6 显示,与 LLaVA-OneVision(使用相同 0.5B Qwen2 大模型,1152×1152 分辨率)相比,FastVLM(1024×1024 分辨率)在 SeedBench、MMMU、DocVQA 等关键基准测试中性能更优(如 SeedBench I 达 69.2,LLaVA-OneVision 为 65.5),同时 TTFT 仅 166ms,是前者(14124ms)的 1/85,视觉编码器参数规模也仅为前者(SigLIP-SO400M,430M)的 1/3.4。与 ConvLLaVA(Vicuna-7B 大模型,768×768 分辨率)相比,FastVLM 在 TextVQA(67.5 vs 59.1)、DocVQA(57.3 vs 44.8)上分数更高,TTFT 却从 496ms 降至 387ms,参数规模从 200M 缩减至 125M。即使面对多视觉编码器模型(如 Cambrian-1,使用 ViT-L/14、ConvNeXt-XXL 等多个编码器),FastVLM 单编码器设计仍更高效 ——表 10 显示 Cambrian-1 的 TTFT 约 5085ms,而 FastVLM(1024×1024 分辨率,Qwen2-7B 大模型)仅 641ms,是前者的 1/7.9,同时 表 11 中文本密集型任务(如 DocVQA 82.7 vs 77.8)性能更优。

FastVLM 的训练流程采用多阶段优化策略,表 8 与 表 9 详细列出了 2 阶段与 4 阶段训练的参数设置:2 阶段训练中,Stage-1 仅训练投影层(学习率 1e-3,batch size 256),Stage-2 微调全模型(学习率 2e-5,batch size 128);4 阶段训练则新增 Stage-1.5(分辨率适应预训练,使用 15M 样本)与 Stage-3(高质量指令微调,如 MammothVL 数据集),进一步提升模型在高分辨率与复杂任务上的性能。表 7 显示,随着训练数据规模扩大(如指令微调数据从 1.1M 增至 23.1M),FastVLM 在 ChartQA(71.4)、InfoVQA(43.3)等任务上的分数持续提升,验证了其数据扩展性。

https://www.arxiv.org/pdf/2412.13303

https://github.com/apple/ml-fastvlm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95772.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95772.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/95772.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【HarmonyOS】一步解决弹框集成-快速弹框QuickDialog使用详解

【HarmonyOS】一步解决弹框集成-快速弹框QuickDialog使用详解 一、集成的应用背景介绍 最近比较忙,除了工作节奏调整,有重点项目需要跟。业务时间,也因为参加了25年创新大赛,我们网友,组成了鸿蒙超新星研发团队&#x…

当公司在你电脑上安装了IP-guard,你必须知道的事

保护公司机密的同时,你的隐私权何在?在现代企业中,为了保护敏感数据和知识产权,很多公司会选择在员工电脑上安装监控软件,IP-guard 就是其中常见的一款。如果你发现公司电脑安装了IP-guard,以下几点是你需要…

拆分TypeScript项目的学习收获:避免缓存问题,peerDependencies,引用本地项目

最近需要将工作中的一个TS包拆出一部分代码,以便在多个团队和项目中共享。原以为这会是一项特别简单的工作,但是也花了两天才大致拆成功。因此记录一下,也给有类似需求的同学一点经验。 所拆项目的大致功能:整个项目的结构大致分为…

无人机各种接头焊接方法

无人机接头的焊接直接关系到设备可靠性和飞行安全,以下是常见接头的焊接方法及注意事项:一、焊接通用原则工具准备恒温焊台(推荐温度:$350 \pm 20^{\circ}\text{C}$)含松芯焊锡丝(直径0.8mm)助焊…

[Linux] Linux标准块设备驱动详解:从原理到实现

Linux标准块设备驱动详解:从原理到实现 在Linux系统中,块设备是存储系统的核心组成部分,涵盖了硬盘、固态硬盘(SSD)、U盘、SD卡等各类持久化存储介质。与字符设备不同,块设备以固定大小的“块”为单位进行数…

什么是压力测试,有哪些方法

压力测试(Stress Testing)是性能测试的一种,旨在评估系统在极端负载条件下的表现,验证其稳定性、可靠性和容错能力。通过模拟超出正常范围的并发用户、数据量或请求频率,发现系统在高负载下的瓶颈(如内存泄…

lua脚本在redis中执行是否是原子性?

lua脚本在redis中执行是否是原子性?以及是否会阻塞其他脚本的执行【客户端的请求】?先解答第二个问题:是的,保持原子执行。这也是redis中支持lua脚本执行的原因。Lua 脚本在 Redis 中是以原子方式执行的,在 Redis 服务器执行EVAL命…

DeepSeek文献太多太杂?一招制胜:学术论文检索的“核心公式”与提问艺术

如果我们想要完成一次学术论文检索,那我们可以把它想象成一次精准的“学术寻宝”。你不是在漫无目的地闲逛,而是一名装备精良的“学术寻宝猎人”,你的目标是找到深藏在浩瀚文献海洋中的“珍宝”(高价值论文)。1 你的寻…

Linux内存管理章节一:深入浅出Linux内存管理:从物理内存到ARM32的用户与内核空间

引言 如果说操作系统是计算机的心脏,那么内存管理就是它的灵魂脉络。它默默地工作在Linux内核的最底层,却决定着整个系统的稳定性、安全性和性能。今天,我们将拨开迷雾,深入探索Linux内存管理的核心概念,并结合熟悉的A…

ECMAScript (5)ES6前端开发核心:国际化与格式化、内存管理与性能

好的,我将根据【国际化与格式化】和【内存管理与性能】这两个主题,为你生成详细的课件内容,涵盖概念、应用和实例。 📗 前端开发核心:国际化与格式化、内存管理与性能 1. 国际化与格式化 (Internationalization & …

3D 可视化数字孪生运维管理平台:构建 “虚实协同” 的智慧运维新范式

3D 可视化数字孪生运维管理平台通过 “物理空间数字化建模 实时数据动态映射 智能分析决策”,将建筑、园区、工业设施等物理实体 1:1 复刻为虚拟孪生体,打破传统运维 “信息割裂、依赖经验、响应滞后” 的痛点,实现从 “被动抢修” 到 “主…

DP-观察者模式代码详解

观察者模式: 定义一系列对象之间的一对多关系;当一个对象改变状态,它的依赖都会被通知。 主要由主题(Subject)和观察者(Observer)组成。 代码实现 package com.designpatterns.observer;/*** 定…

1983:ARPANET向互联网的转变

一、ARPANET早期1969年诞生的ARPANET最初还算不上互联网,不过在ARPANET构建之初就已经考虑了分组交换:1970年代的ARPANET:其实这个时候我就有疑问,TCP/IP是1983年1月1日更新到ARPANET的,但是1970年代的ARPANET已经连接全美的重要单…

自动化运维-ansible中的变量运用

自动化运维-ansible中的变量运用 一、变量命名规则 组成:字母、数字、下划线。必须以字母开头。 合法: app_port, web_1, varA非法: 2_var (以数字开头), my-var (包含其他字符), _private (以下划线开头) 避免使用内置关键字:例如 hosts, tasks, name…

深入学习并发编程中的volatile

volatile 的作用 保证变量的内存可见性禁止指令重排序1.保证此变量对所有的线程的可见性,当一个线程修改了这个变量的值,volatile 保证了新值能立即同步到主内存,其它线程每次使用前立即从主内存刷新。 但普通变量做不到这点,普通…

使用Java获取本地PDF文件并解析数据

获取本地文件夹下的PDF文件要获取本地文件夹下的PDF文件,可以使用Java的File类和FilenameFilter接口。以下是一个示例代码片段:import java.io.File; import java.io.FilenameFilter;public class PDFFileFinder {public static void main(String[] args…

吴恩达机器学习补充:决策树和随机森林

数据集:通过网盘分享的文件:sonar-all-data.csv 链接: https://pan.baidu.com/s/1D3vbcnd6j424iAwssYzDeQ?pwd12gr 提取码: 12gr 学习来源:https://github.com/cabin-w/MLBeginnerHub 文末有完整代码,由于这里的代码和之前的按…

Shell脚本一键监控平台到期时间并钉钉告警推送指定人

1. 监控需求客户侧有很多平台需要定期授权,授权后管理后台才可正常登录,为避免授权到期,现撰写脚本自动化监控平台授权到期时间,在到期前15天钉钉或其他媒介提醒。2. 监控方案2.1 收集平台信息梳理需要监控的平台地址信息&#xf…

华为HCIE数通含金量所剩无几?考试难度加大?

最近网上很火的一个梗——法拉利老了还是法拉利,这句话套在华为HCIE数通身上同样适用,华为认证中的华为数通和云计算两大巨头充斥着大家的视野里面,也更加广为人知,但随着时代的发展,华为认证体系的调整,大…

#数据结构----2.1线性表

在数据结构的学习中,线性表是最基础、最核心的结构之一 —— 它是后续栈、队列、链表等复杂结构的 “基石”。今天从 “是什么”(定义)到 “怎么用”(基本操作),彻底搞懂线性表的核心逻辑。 一、先明确&…