华为云Flexus+DeepSeek征文|基于Dify构建拍照识题智能学习助手
- 一、构建拍照识题智能学习助手前言
- 二、构建拍照识题智能学习助手环境
- 2.1 基于FlexusX实例的Dify平台
- 2.2 基于MaaS的模型API商用服务
- 三、构建拍照识题智能学习助手实战
- 3.1 配置Dify环境
- 3.2 配置Dify工具
- 3.3 创建拍照识题智能学习助手
- 3.4 使用拍照识题智能学习助手
- 四、总结
一、构建拍照识题智能学习助手前言
面对纸质习题、板书题目等实体知识载体的数字化理解鸿沟,传统答疑方式往往力有不逮。智能看图解题助手,可以巧妙地融合了用户直观的拍照上传与文字提问双通道输入,用户仅需拍照上传,系统便能通过Qwen2.5-VL精准提取题目,并由DeepSeek-V3完成知识讲解,将复杂的图像识别与语义理解转化为即时、权威的认知输出,这不仅极大提升了答疑的便捷性与覆盖场景,更将多模态交互的潜力转化为用户指尖可触、可感的认知升级,让复杂问题的求解过程变得前所未有的流畅与高效。
依托FlexusX云服务器
强大的弹性算力与高并发稳定性,无缝承载了基于MaaS模式
部署的DeepSeek大模型,使其能够毫秒级响应复杂的看图解题请求,结合模型本身在中文理解、逻辑推理与知识讲解上的深度优化,共同确保了智能助手的流畅性、可靠性与专业输出品质,为用户提供高性能、免运维的一站式智能服务体验。
二、构建拍照识题智能学习助手环境
2.1 基于FlexusX实例的Dify平台
华为云FlexusX实例
提供高性价比的云服务器,按需选择资源规格、支持自动扩展,减少资源闲置,优化成本投入,并且首创大模型QoS保障,智能全域调度,算力分配长稳态运行,一直加速一直快,用于搭建Dify-LLM应用开发平台。
Dify是一个能力丰富的开源AI应用开发平台
,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。
参考:华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程
2.2 基于MaaS的模型API商用服务
MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。
参考:华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程
三、构建拍照识题智能学习助手实战
3.1 配置Dify环境
输入管理员的邮箱和密码,登录基于FlexusX部署好的Dify网站
将MaaS平台的模型服务接入Dify,这里我们选择的是DeepSeek V3商用服务
,需要记住调用说明中的接口信息
和 API Key 管理中API Key
,若没有可以重新创建即可
配置Dify模型供应商:设置 - 模型供应商 - 找到OpenAI-API-compatible
供应商并单击添加模型
,在添加 OpenAI-API-compatible对话框,配置相关参数,然后单击保存
参数 | 说明 |
---|---|
模型类型 | 选择LLM 。 |
模型名称 | 填入模型名称。 |
API Key | 填入创建的API Key。 |
API Endpoint URL | 填入获取的MaaS服务的基础API地址,需要去掉地址尾部的“/chat/completions”后填入 |
3.2 配置Dify工具
通义千问
同义 Qwen 由阿里云开发,是一系列复杂的 LLM。它包括多个变体,例如用于文本处理的 Qwen、用于视觉语言任务的 Qwen-VL 和用于音频理解的 Qwen-Audio。这些模型以其令人印象深刻的规模而著称,旗舰 Qwen-72B 模型具有 720 亿个参数,并在超过 3 万亿个代币上进行了训练。
根据多个实战案例的测试结果,Qwen/Qwen2-VL-72B-Instruct
模型在中文票据识别任务中表现最佳。该模型特点:
- 强大的视觉理解能力
- 对中文票据格式有良好适配性
- 支持结构化输出
打开设置 - 模型供应商 - 安装模型供应商,选择通义千问
,进行安装
安装完成后,您需要从 阿里云 获取 API 密钥
并在 设置 -> Model Provider 中添加通义千问 API Key
刷新页面后就可以查看到 qwen2.5-vl-72b-instruct
状态已开启
3.3 创建拍照识题智能学习助手
在 Dify - 工作室,创建空白应用,选择 Chatflow
,输入应用名称和图标,点击创建
默认是有个简单的模板的,删除其他默认节点,保留开始节点
点击右上角 功能
菜单,开启文件上传
功能,并选择图片
类型,保存即可
开始节点后添加条件分支
,用来判断用户是否上传了图片,如果上传了图片则提交给 Qwen2.5-vl
进行题目识别,如果没有上传图片则直接提交给 DeepSeek-V3
进行知识点讲解
若上传图片则添加LLM
图片识别节点,通过 Qwen2.5-vl 对图片内容进行解析,识别题目,需要开始视觉
,参数选择上传的文件
提示词参考:识别图片中的题目并输出题目
再添加LLM节点,用于题目解析,配置模型
为MaaS通过的DeepSeek V3
,添加上下文为 图片识别
返回的结果,也就是图片的题目信息,添加的提示词如下:
#角色你是一位经验丰富的小学全科老师,能够耐心指导我理解题目的相关知识。题目:引用上下文#技能1.能够记录和存储题目,帮助分析题目错误的地方背后的知识点,然后用苏格拉底提问法一步步引导我去理解相关的知识点,每次提问需要等待我回答后再继续提问,每次只提一个问题。2.请分析认为我搞懂题目相关知识点后,你可以出3道相同类型的题目检测我是否已经完全掌握。
这里的关键是要通过提示语规定大模型输出,要求大模型能够引导用户一步步进行知识点的讲解,而不是直接给出答案,最终达到接近真人老师的讲解效果,并且在判断用户掌握了该知识后能够出类似的题目进行检测。
最后添加直接回复
节点,直接返回题目解析节点输出的变量即可
再将条件分支
的ElSE也接入题目解析
节点,并开启记忆
功能,输入参数为用户输入内容 query
开启对话开场白
功能,输入内容保存即可
编排完成后,就可以在预览界面进行测试,先直接输入问题测试:6x7=?
查看运行流程直接走的是题目解析,但是并没有直接给出答案,而是引导反问你对题目的认知,很接近真人老师
然后一步步的引导并讲解,知道你给出正确的答案
甚至还会出三道类似的题目
整个流程都很有很好的引导和解释,而且会给出正向反馈
再上传一张数学应用题的照片,并在对话框输入:讲解这几道题的思路
这时走进了图片识别
的流程,返回值如下,可以检查下识别的准确度如何
{"text": "以下是图片中几道题目的思路讲解:\n\n### 01. 妈妈买了 5 个苹果,每个苹果 5 元,付给售货员 30 元,应找回多少元?\n**思路:**\n1. 计算 5 个苹果的总价格:5 个苹果 × 5 元/个 = 25 元。\n2. 用付给售货员的 30 元减去苹果的总价格:30 元 - 25 元 = 5 元。\n3. 应找回的金额为 5 元。\n\n### 02. 小美拿着 25 元去买作业本,每个作业本是 3 元,她最多能买几个作业本?\n**思路:**\n1. 用总金额除以每个作业本的价格:25 元 ÷ 3 元/本 ≈ 8.33。\n2. 由于不能买部分作业本,所以最多能买 8 个作业本。\n\n### 03. 同学们要栽 65 棵树,已经栽了 6 行,每行 8 棵,还需要栽多少棵?\n**思路:**\n1. 计算已经栽了多少棵树:6 行 × 8 棵/行 = 48 棵。\n2. 用总共要栽的树数减去已经栽的树数:65 棵 - 48 棵 = 17 棵。\n3. 还需要栽 17 棵树。\n\n### 04. 小刚今年 7 岁,妈妈比小刚大 23 岁,爸爸比妈妈大 4 岁,那爸爸妈妈分别多少岁?\n**思路:**\n1. 计算妈妈的年龄:7 岁 + 23 岁 = 30 岁。\n2. 计算爸爸的年龄:30 岁 + 4 岁 = 34 岁。\n3. 妈妈 30 岁,爸爸 34 岁。\n\n### 05. 把 35 个彩球按 4 个一组分类,可以分成几组,还剩下几个彩球?\n**思路:**\n1. 用总彩球数除以每组的彩球数:35 个 ÷ 4 个/组 = 8 组…… 3 个。\n2. 可以分成 8 组,还剩下 3 个彩球。\n\n### 06. 食堂里有 100 千克大米,用去 60 千克,剩下的每天吃 8 千克,还可以吃多少天?\n**思路:**\n1. 计算剩下多少大米:100 千克 - 60 千克 = 40 千克。\n2. 用剩下的大米除以每天吃的量:40 千克 ÷ 8 千克/天 = 5 天。\n3. 还可以吃 5 天。\n\n### 07. 把一根绳子对折后,再次对折后有 20 厘米,这根绳子原本有多长?\n**思路:**\n1. 两次对折后的长度为 20 厘米。\n2. 每次对折长度减半,所以对折一次后的长度为 20 厘米 × 2 = 40 厘米。\n3. 原本的长度为 40 厘米 × 2 = 80 厘米。\n\n### 08. 某栋大楼共十层,每层 4 米,小刚站在 8 楼的阳台,他离一楼地面多少米?\n**思路:**\n1. 计算小刚所在的楼层高度:(8 - 1) 层 × 4 米/层 = 7 层 × 4 米/层 = 28 米。\n2. 小刚离一楼地面的高度为 28 米。","usage": {"prompt_tokens": 1190,"prompt_unit_price": "4.13","prompt_price_unit": "0.000001","prompt_price": "0.0049147","completion_tokens": 921,"completion_unit_price": "4.13","completion_price_unit": "0.000001","completion_price": "0.0038037","total_tokens": 2111,"total_price": "0.0087184","currency": "RMB","latency": 49.49028724800155},"finish_reason": "stop"
}
再次进入问题的一步步探讨过程
简单的回答了第1个问题了,得到了正确的答复后,就开始了第2个问题,流程较长没有完全测试
测试完成就可以发布更新到探索
页面了,发布后选择运行就可以获得一个在线运行的智能学习助手的网页!
3.4 使用拍照识题智能学习助手
在探索 - 拍照识题智能学习助手中开启新对话
这里测试一下英语问题,搜到一张英语的试题
上传此图片,并输入:怎么做
此时不能查看图片识别
的全部返回值,只能查看输入的问题来看了
第一个问题的识别准确,回答出正确答案后,但是解释不正确
很容易拓展知识点,可以直接继续下一题,整个过程真的很像被老师答疑解惑的感觉,这个提示词太强了!大家也可以试试,尤其是小学生的家长们!
四、总结
通过dify直观的可视化工作流编排,将复杂的多模态识别(Qwen2.5-VL)、智能判断与知识讲解(DeepSeek-v3)模块无缝集成变得异常清晰高效,深刻体会到其降低智能应用开发门槛的强大力量,让聚焦用户价值(看图解题)的核心逻辑得以快速验证和流畅运行,真正实现了从构想到落地的极短周期,使技术创新触手可及。
依托FlexusX云服务器的高弹性算力与稳定承载,无缝驱动MaaS模式下的DeepSeek V3调用API,实现毫秒级响应的专业级语义理解与精准知识输出,以卓越性能和免运维的可靠性,为智能应用提供强大引擎。