从软件工程视角看大语言模型：挑战与未来之路

论文标题：Software Engineering for Large Language Models: Research Status, Challenges and the Road Ahead

arXiv:2506.23762
Software Engineering for Large Language Models: Research Status, Challenges and the Road Ahead
Hongzhou Rao, Yanjie Zhao, Xinyi Hou, Shenao Wang, Haoyu Wang
Subjects: Software Engineering (cs.SE); Artificial Intelligence (cs.AI)

研究背景：当LLM遇上软件工程

想象一下，你让ChatGPT写一首诗，第一次得到的是浪漫的十四行诗，第二次同样的prompt却收到了一首俳句——这就是大语言模型(LLM)的非确定性魅力，但也给软件开发带来了新难题。随着GPT-4、LLaMA等模型的爆发式发展，LLM已从实验室走向医疗、金融等关键领域，但它们的开发过程仍面临着传统软件工程未曾遇到的挑战：

传统软件VS LLM：你的计算器APP每次输入"2+2"都会输出"4"，但LLM可能今天给你讲个数学故事，明天才给出正确答案。这种概率性输出让传统的确定性测试方法失效。
算力黑洞：训练一个千亿参数模型的成本堪比建造一座小型数据中心，这让中小团队望而却步。
黑盒困境：当LLM生成错误信息时，工程师很难像调试传统代码一样定位问题，就像医生无法给"大脑"做CT扫描。

这些问题催生了一个新领域：大语言模型软件工程(SE for LLM)。华中科技大学的研究团队正是看到了这一空白，系统分析了LLM从需求到运维的全生命周期挑战。

主要作者及单位信息

Hongzhou Rao, Yanjie Zhao等：来自华中科技大学计算机学院，长期从事AI与软件工程交叉研究。
Haoyu Wang：通讯作者，华中科技大学教授，研究方向包括智能软件与大规模系统。

创新点：第一个吃螃蟹的系统性研究

这篇论文的独特之处在于：

全生命周期视角：首次将LLM开发分为需求工程→数据集构建→模型开发→测试评估→部署运维→维护演进六个阶段，每个阶段都给出了SE解决方案。
跨界融合思维：把传统软件工程的模块化、版本控制等思想，与LLM特有的量化、微调等技术结合，比如提出"LLMOps"概念升级传统MLOps。
问题-方案双轨制：不仅指出"数据中毒"“灾难性遗忘"等12大核心挑战，还给出了如"多利益方协作需求定义”"自适应数据评估框架"等具体解决方向。

研究方法和思路：像搭积木一样拆解LLM开发

核心研究框架

论文采用"分阶段剖析"的方法，每个阶段都遵循：

现状扫描：梳理当前研究进展
挑战识别：找出技术瓶颈
未来指路：提出研究方向

关键创新方法举例

需求工程阶段：如何让LLM理解"好"的标准？

问题：用户说"我要一个智能客服"，但"智能"的定义模糊不清。
方法：
1. 引入多利益方协作机制，让业务人员、工程师、用户共同定义指标（如响应准确率、情感识别率）
2. 采用实证研究方法，通过A/B测试确定关键需求优先级
3. 建立需求验证闭环，用LLM生成测试用例反推需求合理性

数据集构建：如何避免"垃圾进垃圾出"？

创新数据管道：
- 利用LLM自动过滤重复数据，但引入人类专家对关键样本标注
- 采用动态长尾适应技术，对稀有数据类别自动合成补充

模型部署：如何让LLM在手机上跑起来？

边缘部署方案：
1. 量化压缩：将16位浮点数转为4位整数，模型体积缩小4倍
2. 混合架构：云边协同，复杂推理放云端，实时响应放边缘
3. 安全沙箱：用TEE(可信执行环境)隔离模型，防止恶意篡改

主要贡献：给LLM开发装上"工程方向盘"

1. 建立SE for LLM的方法论体系

定义了6大阶段的工程化标准，比如在测试阶段提出"三维评估框架"（评估内容-场景-方法）
开发了LLMOps工具链原型，集成模型版本控制、自动部署等功能

2. 解决10+关键工程挑战

挑战领域	传统方案问题	论文提出的改进
模型微调	灾难性遗忘严重	引入记忆增强模块，保留关键知识
测试评估	非确定性难测	设计概率容忍度测试标准，允许合理波动
数据安全	中毒攻击隐蔽	开发实时异常检测系统，识别恶意数据模式

3. 推动跨学科研究

促进AI研究者与SE专家合作，比如让NLP专家参与需求工程
为工业界提供落地指南，如金融领域LLM的合规性部署流程

一段话总结

文档聚焦于从软件工程视角探讨大型语言模型（LLMs）发展，将其生命周期分为需求工程、数据集构建、模型开发与增强、测试与评估、部署与运维、维护与演进六个阶段，分析各阶段研究现状、挑战及未来方向，强调LLMs在确定性、可解释性等方面与传统软件差异，指出需结合软件工程方法应对计算成本高、非确定性测试等挑战，为LLMs开发提供系统性指导。

思维导图

在这里插入图片描述

详细总结

一、LLMs与传统软件的差异

特征	传统软件	LLMs
确定性	相同输入输出一致	概率性输出，具不确定性
可执行性	基于显式逻辑执行	神经网络推理，透明度低
可维护性	代码修改调试	微调、再训练或数据增强
可复用性	跨项目复用代码组件	预训练模型适配多任务
可测试性	支持系统单元和集成测试	需基于输出评估，容不确定性
可扩展性	模块化设计扩展	通过MoE、LoRA等参数高效方法扩展
可部署性	需特定平台部署方法	跨平台，基础设施需求相似

二、LLM开发生命周期各阶段分析

需求工程
- 研究现状：利用LLMs支持需求工程任务研究较多，但针对LLM自身需求工程方法研究有限，多为领域特定需求，如医疗、法律等领域。
- 关键挑战：需求定义准确性，如非功能需求中“创造力”等概念模糊；需求定义合理性，如边缘部署中性能与资源的权衡。
- 未来方向：多利益相关方协作定义需求；开展实证研究，明确需求边界。
数据集构建
- 数据质量
  - 现状：手动标注数据质量高但规模有限，LLM辅助数据构建效率高但依赖LLM性能。
  - 挑战：手动构建劳动密集、规模受限；数据分布不平衡，长尾效应明显；LLM合成数据存偏见与误差。
  - 方向：优化数据管道，集成多模型协作与人工反馈；建立自适应数据评估机制，动态调整数据生成。
- 数据安全
  - 现状：面临数据中毒、恶意代码注入、未经授权数据使用等风险。
  - 挑战：训练数据中毒难以检测；数据授权验证技术精度不足。
  - 方向：建立可信数据源过滤机制；开发更精确数据检测技术，如LLM辅助实时异常检测。
模型开发与增强
- 预训练
  - 现状：关注训练稳定性与计算资源优化，如控制梯度爆炸、优化学习率。
  - 挑战：缺乏通用训练稳定性评估模型；训练成本高昂，限制中小团队发展。
  - 方向：深入理论研究训练动态，开发实时监控工具；探索模型增长技术，提高训练效率。
- 微调
  - 现状：多任务微调与灾难性遗忘问题受关注，LoRA等技术应用较广。
  - 挑战：多任务间干扰，资源分配困难；灾难性遗忘机制不清，解决方案有限。
  - 方向：设计混合微调架构，动态分配资源；开发知识保留技术，如记忆增强模型。
- 模型集成
  - 现状：多模态模型、多模型协作及LLM-based代理应用发展迅速。
  - 挑战：跨模态语义对齐困难；多模型协作中模型能力与价值观差异。
  - 方向：构建智能提示与安全框架，实现跨模态信息转换与安全交互。
- 模型压缩
  - 现状：量化、知识蒸馏、pruning是主要方法。
  - 挑战：压缩与性能平衡难，极端量化性能下降明显。
  - 方向：联合优化多种压缩技术，开发自动化评估框架。
- PEFT
  - 现状：参数高效微调技术如LoRA广泛应用。
  - 挑战：适配器引入复杂度与延迟，存在安全风险。
  - 方向：设计自适应适配器架构，优化模块选择与安全防护。
测试与评估
- 评估内容
  - 现状：多维度评估LLM能力，如推理、偏见等。
  - 挑战：抽象能力量化难，评估结果不一致。
  - 方向：引入跨域方法，如教育科学中的知识转移评估；适应不同测试环境，动态调整评估场景。
- 评估场景
  - 现状：各领域开发专用评估基准。
  - 挑战：基准覆盖不全、质量参差不齐，数据污染影响评估结果。
  - 方向：建立综合评估平台，持续更新基准；采用数据扰动技术，减少污染影响。
- 评估方法
  - 现状：自动化评估与人工评估结合。
  - 挑战：抽象能力评估依赖人工，效率低。
  - 方向：改进LLM-as-Judge框架，降低偏见；推动人机协作评估，平衡效率与准确性。
部署与运维
- 集群部署
  - 现状：关注资源管理、 latency优化与安全。
  - 挑战：异构硬件资源调度复杂；API暴露与数据泄漏风险。
  - 方向：开发高效调度算法，动态分配资源；建立隐私保护与安全风险评估框架。
- 边缘部署
  - 现状：模型压缩与跨平台部署是重点。
  - 挑战：硬件资源有限，模型压缩影响性能；模型暴露易受攻击。
  - 方向：开发通用部署框架，支持多模型与硬件；利用TEE技术，增强边缘部署安全。
- 混合部署
  - 现状：云边协同计算模式兴起。
  - 挑战：设备间协作与数据安全传输。
  - 方向：优化任务分配与通信，设计加密与联邦学习方案。
维护与演进
- 现状：技术债务积累，模型漂移影响性能，需持续更新适应法规伦理。
- 挑战：技术债务缺乏系统研究，模型漂移检测与适应困难；伦理合规自动化难。
- 方向：系统研究技术债务，利用LLMOps管理；开发漂移适应机制，动态更新模型；将伦理规范转化为模型约束，实现自适应合规。

关键问题及答案

LLMs在需求工程阶段面临的核心挑战是什么？
- 答案：LLMs在需求工程阶段核心挑战是需求定义的准确性与合理性。准确性方面，非功能需求如“创造力”“推理能力”等概念模糊，缺乏明确量化标准；合理性方面，需平衡不同利益相关方需求，如边缘部署中性能与资源消耗的权衡，以及处理LLMs概率性输出与用户确定性需求的矛盾。
数据集构建中数据安全的主要威胁及应对方向是什么？
- 答案：数据集构建中数据安全主要威胁有数据中毒（恶意数据注入导致模型行为异常）和数据授权问题（未经授权使用数据引发法律风险）。应对方向包括建立可信数据源过滤机制，结合数据 provenance技术追踪数据来源；开发更精确的数据检测技术，如利用LLM辅助实时异常检测，识别恶意数据与偏见内容。
模型部署与运维阶段，边缘部署相比集群部署的独特挑战是什么？
- 答案：边缘部署相比集群部署的独特挑战在于硬件资源限制与安全风险。硬件上，边缘设备计算能力、内存和能源有限，需在模型压缩时平衡性能与精度；安全上，边缘设备模型暴露易受物理 tampering、模型 stealing等攻击，且本地处理敏感数据需更强隐私保护机制，而集群部署可依托云资源实现更复杂的安全防护与资源调度。