一、 简介

Qwen-2-5-VL 是阿里巴巴通义千问团队推出的多模态大语言模型(MLLM),属于 Qwen-2 系列模型的一部分,支持视觉(Vision)与语言(Language)的多模态交互。

1、特性

  • 动态分辨率处理:自适应调整图像分辨率以平衡精度与计算效率。
  • 跨模态对齐:通过对比学习对齐视觉-语言特征空间,提升模态交互能力。
  • 低资源适配:支持量化、LoRA微调等轻量化部署方案。

2、工程目录

    Qwen2-5-VL├── datasets│   ├──images                        # 默认为一张panda.jpg的图片│   └──videos                        # 默认为一段carvana_video.mp4的视频├── models│   └── BM1684X│       └── qwen2.5-vl-3b_bm1684x_w4bf16_seq2048.bmodel    # BM1684X qwen2.5-vl-3b模型├── python│   ├── __pycache__│   ├── configs                       # 配置文件│   ├── qwen2_5_vl.py                 # 启动程序│   ├── README.md                     # 说明文档│   ├── vision_process.py             # 视觉数据预处理文件│   └── requirements.txt              # python依赖├── scripts│   ├── compile.sh│   ├── datasets.zip│   ├── download_bm1684x_bmodel.sh       # 1684X盒子模型下载脚本│   ├── download_bm1688_bmodel.sh        # 1688盒子模型下载脚本│   └── download_datasets.sh             # 数据集下载脚本└── tools                              # 工具包

二、运行步骤

1、准备Python环境、数据与模型

1.1 首先升级python版本为3.10
    sudo add-apt-repository ppa:deadsnakes/ppasudo apt updatesudo apt install python3.10 python3.10-dev# 创建虚拟环境(不含pip包),以后每次运行都要按照步骤切换虚拟环境cd /data# 创建虚拟环境(不包含 pip)python3.10 -m venv --without-pip myenv# 进入虚拟环境source myenv/bin/activate# 手动安装 pipcurl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypython get-pip.pyrm get-pip.py# 安装依赖库pip3 install torchvision pillow qwen_vl_utils transformers --upgrade
1.2 复制算能官方的Qwen2-5-VL工程目录(或者复制后将Qwen2_5-VL上传到盒子中的/data下)
    git clone https://github.com/sophgo/sophon-demo.gitcd sophon-demo/sample/Qwen2_5-VLcd /data/Qwen2_5-VL  ##如果只上传了LLM_api_server,则只需进入此目录下操作
1.3 准备运行环境

在PCIe上无需修改内存,以下为soc模式相关:

对于1684X系列设备(如SE7/SM7),都可以通过这种方式完成环境准备,使其满足Qwen2.5-VL运行条件。

首先,确保使用V24.04.01 SDK,可以通过bm_version命令检查SDK版本,如需要升级,可从sophgo.com获取v24.04.01版本SDK,刷机包位于sophon-img-xxx/sdcard.tgz中,参考对应的产品手册进行刷机。

确保SDK版本后,在1684x SoC环境上,参考如下命令修改设备内存

    cd /data/mkdir memedit && cd memeditwget -nd https://sophon-file.sophon.cn/sophon-prod-s3/drive/23/09/11/13/DeviceMemoryModificationKit.tgztar xvf DeviceMemoryModificationKit.tgzcd DeviceMemoryModificationKittar xvf memory_edit_{vx.x}.tar.xz #vx.x是版本号cd memory_edit./memory_edit.sh -p #这个命令会打印当前的内存布局信息./memory_edit.sh -c -npu 7615 -vpu 2048 -vpp 2048 #如果是在1688平台上请修改为:./memory_edit.sh -c -npu 10240 -vpu 0 -vpp 3072sudo cp /data/memedit/DeviceMemoryModificationKit/memory_edit/emmcboot.itb /boot/emmcboot.itb && syncsudo reboot
1.4 安装unzip以及测试数据集准备
    sudo apt install unzipchmod -R +x scripts/./scripts/download_bm1684x_bmodel.sh  ##下载模型文件./scripts/download_datasets.sh  ##下载数据集

2、python例程

2.1 环境准备
    # 此外您可能还需要安装其他库cd /data/Qwen2_5-VL/pythonpip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple --upgradepip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple# 您需要安装SILK2.Tools.loggerpython3 -m dfss --url=open@sophgo.com:tools/silk2/silk2.tools.logger-1.0.2-py3-none-any.whlpip3 install silk2.tools.logger-1.0.2-py3-none-any.whl --force-reinstallrm -f silk2.tools.logger-1.0.2-py3-none-any.whl# 本例程依赖sophon-sail,可直接安装sophon-sail,执行如下命令:pip3 install dfss --upgradepython3 -m dfss --install sail# 需要下载运行配置文件,执行如下命令python3 -m dfss --url=open@sophgo.com:sophon-demo/Qwen2_5_VL/configs.zipunzip configs.ziprm configs.zip
2.2 启动测试
参数说明

可以通过修改qwen2_5_vl.py中的内容进行测试运行。内容如图:

TOOL

需要将其中896行的bmodel默认路径改为:../models/BM1684X/qwen2.5-vl-3b_bm1684x_w4bf16_seq2048.bmodel

使用方式
    # 视频识别python3 qwen2_5_vl.py --vision_inputs="[{\"type\":\"video_url\",\"video_url\":{\"url\": \"../datasets/videos/carvana_video.mp4\"},\"resized_height\":420,\"resized_width\":630,\"nframes\":2}]"# 图片识别python3 qwen2_5_vl.py --vision_inputs="[{\"type\":\"image_url\",\"image_url\":{\"url\": \"../datasets/images/panda.jpg\"}, \"max_side\":420}]"# 同时python3 qwen2_5_vl.py --vision_inputs="[{\"type\":\"video_url\",\"video_url\":{\"url\": \"../datasets/videos/carvana_video.mp4\"},\"resized_height\":420,\"resized_width\":630,\"nframes\":2},{\"type\":\"image_url\",\"image_url\":{\"url\": \"../datasets/images/panda.jpg\"}, \"max_side\":840}]"# 纯文本对话python3 qwen2_5_vl.py --vision_inputs=""
使用效果

TOOL

TOOL

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/92163.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/92163.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/92163.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端项目工程化配置webpack与vite

webpack与vite一、了解 webpack入口(entry)输出(output)loader插件(plugin)模式(mode)二、项目中使用webpackvue项目react项目三、了解vite构建选项(build)模块解析(Resolve)模块处理(Module)服务器选项&am…

机器学习(3):KNN算法-分类

一、KNN算法 K-近邻算法(K-Nearest Neighbors,简称KNN),根据K个邻居样本的类别来判断当前样本的类别;如果一个样本在特征空间中的k个最相似(最邻近)样本中的大多数属于某个类别,则该类本也属于这个类别。一些距离&…

Redis Windows迁移方案与测试

我想将开源软件Redis的主程序和附属程序迁移到Windows平台,目前它只能在Linux上运行,让它可以在Windows 11和Windows Server 2025上运行,这需要考虑Linux操作系统和Windows操作系统的差异,请列举出将Redis在Linux系统上运行的GCC的…

信息安全概述--实验总结

数据链路层--ARP欺骗ARP欺骗原理XP2要与XP3通信,要发送ARP请求,询问XP3的MAC地址kali冒充XP3持续给XP2发送ARP应答,XP2会以为收到的MAC地址是XP3的,实际是kali的之后XP2发送的数据都是发给kali的如果说XP2需要想要访问互联网&…

【Electron】打包后图标不变问题,图标问题

windows上图标未更换。图标已经换了,但新打出的包或是安装后的 exe 图标没有更换。这个时候可以右击你的exe或是安装包点属性,看看图标是否正常,如果这里的图标正常,那其实就是成功的了。主要原因是因为 windows 图标缓存机制导致…

单词拆分 II

题目&#xff1a;思考&#xff1a; 本质上和单词拆分1没什么区别单词拆分1是问能不能拆单词拆分2是问把所有拆的方案列出来要列出所有方案&#xff0c;采用字典树回溯 实现&#xff1a; class Node { public:vector<Node*> check;bool isEnd;Node(int num){for (int i0;i…

国产三防平板电脑是什么?三防平板推荐

国产三防平板电脑&#xff0c;专为应对极端工作环境而生。这类设备集防水、防尘、防摔三大防护性能于一体&#xff0c;通过IP67/IP68防护认证及MIL-STD-810军规标准测试&#xff0c;能在建筑工地、油田勘探、应急救援等恶劣场景中稳定运行。其核心价值在于将消费级平板的智能体…

优思学院|什么是精益生产管理?原则与方法详述

在企业经营中&#xff0c;「利润&#xff1d;价格&#xff0d;成本」这条公式可谓家喻户晓。传统的成本思维通常认为价格由公司设定&#xff0c;而成本则是难以撼动的既定事实。然而&#xff0c;随着市场经济与自由定价机制的成熟&#xff0c;企业逐渐意识到——价格其实是由市…

【银行测试】银行票据项目业务+票据测试点分析(四)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、提示付款 功能…

基于华为开发者空间的Open WebUI数据分析与可视化实战

1 概述 1.1 案例介绍 本案例演示如何在华为开发者空间云主机上搭建Open WebUI环境&#xff0c;结合DeepSeek-R1模型进行数据分析、统计建模、数据可视化和业务洞察挖掘等实际数据科学任务。 1.2 适用对象 数据分析师业务分析师数据科学工程师市场研究人员统计学专业学生 1…

【HZ-T536开发板免费体验】Cangjie Magic调用视觉语言大模型(VLM)真香,是不是可以没有YOLO和OCR了?

目录 引言 编写视觉语言大模型&#xff08;VLM&#xff09;程序 交叉编译Cangjie Magic到T536开发板 对cjpm.toml文件的修改 stdx库的配置 拷贝libsecurec.so到cangjie的库文件中 开始交叉编译 部署到开发板 拷贝所需要的库文件 安装curl 运行程序 结束语 本文首发…

最长连续序列(每天刷力扣hot100系列)

目录 题目介绍&#xff1a; 哈希表法&#xff1a; 复杂度分析&#xff1a; 思路分析&#xff1a; unordered_set 和 unordered_map的比较&#xff1a; 1. 核心区别 2. 使用场景 3. 在本题中的选择 4. 性能对比 5. 成员函数差异 unordered_table.begin()函数是返回的键…

国标渠道研究:专业为渠道策略提供数据支持(渠道调研)

北京国标市场调查有限公司是一家专业的市场调查公司&#xff0c;&#xff08;线上问卷调查&#xff09;&#xff08;第三方市场咨询&#xff09;&#xff08;消费者调查研究&#xff09;专注于为企业提供全方位的渠道研究服务。服务范围包括渠道策略研究、渠道销售数据分析和渠…

深入理解 C 语言中的拷贝函数

目录1. C 语言中的主要拷贝函数2. strcpy&#xff1a;字符串拷贝函数签名示例局限性3. strncpy&#xff1a;指定长度的字符串拷贝函数签名示例局限性4. memcpy&#xff1a;通用内存拷贝函数签名示例优势局限性5. memmove&#xff1a;支持重叠内存拷贝函数签名示例优势局限性6. …

主数据变更流程

主数据&#xff08;如客户、供应商、产品等&#xff09;的变更流程&#xff08;新增、更新、停用等&#xff09;是主数据管理&#xff08;MDM&#xff09;的核心环节&#xff0c;其设计需兼顾数据质量&#xff08;准确性、一致性&#xff09;、业务合规&#xff08;审批权限、审…

VUE2 学习笔记 合集

​​​​​​​VUE2 学习笔记1 VUE特点、开发者工具、入门Demo-CSDN博客 VUE2 学习笔记2 数据绑定、数据代理、MVVM_vue2的数据绑定-CSDN博客 VUE2 学习笔记3 v-on、事件修饰符、键盘事件_vue2组件 点击事件-CSDN博客 VU2 学习笔记4 计算属性、监视属性-CSDN博客 VUE2 学习…

【motion】HumanML3D 的安装1:环境搭建

https://github.com/EricGuo5513/HumanML3D/issues/10 (base) root@k8s-master-pfsrv:/home/zhangbin/perfwork/01_ai/15_HumanML3D# conda env create -f environment.yaml Retrieving notices: ...working... done Channels:- defaults Platform: linux-64 Collecting

Pig Cloud遇到websocket不能实现同一个用户不同浏览器接受到广播的消息解决方案

自定义SecuritySessionKeyGenerator类,为每个客户端连接建立唯一的keypackage com.pig4cloud.plugin.websocket.custom;import com.pig4cloud.plugin.websocket.holder.SessionKeyGenerator; import org.springframework.web.socket.WebSocketSession;import java.util.UUID; p…

蓝讯hifi添加自定义算法

总结 自己定义算法要添加在hifi工程里 hifi工程在wiki上可以下载,名字叫做project 在main.c里添加了自己的算法,算法的执行涉及到通道与effect_id 编译hifi项目需要安装 XtensaTool 与hifi4 configuration file 编译成功后移植bin文件 通过hifi4_effect_audio_process调用hifi…

【软考中级网络工程师】知识点之 STP 协议,网络的 “交通协管员”

目录一、STP 协议初相识二、STP 协议登场&#xff0c;网络环路难题迎刃而解2.1 网络环路困境2.2 STP 协议闪亮登场三、STP 协议核心探秘&#xff1a;生成树算法3.1 选举根网桥3.2 确定根端口3.3 选定指定端口四、STP 协议端口状态解析4.1 阻塞状态4.2 监听状态4.3 学习状态4.4 …