2025年的春天格外特别。伴随着人形机器人、DeepSeek的强势刷屏，AI成了最有前景的赛道。万物皆可AI，万物也在寻觅用上AI或者让AI“转正”的“aha moment”。

帮助机器更好地“思考”，让更多的AI走向边缘，是AI发展的重要趋势之一。在MCU中加入NPU单元是落实这一趋势的芯片技术路线之一，STM32N6便是MCU+NPU架构的开山之作，它拥有MPU级的AI性能，同时具备MCU级的功耗和成本。这一独特的价值定位，让边缘AI部署更轻松。

我们发现，在人工智能芯片技术持续创新的过程中，许多神经网络算法对传统MCU的要求过高，为了运行这些算法，实现边缘AI功能，开发者不得不采用集成神经处理单元（NPU）的MPU。当集成ST自研NPU的STM32N6问世之后，它可以替代那些性能强大的MPU，在保持贴近原始输入数据源、降低延迟、增强数据安全性和隐私性等优势的同时，还能降低系统成本（BOM成本更低）、加强系统的实时操作性、满足更低的功耗要求。

1. STM32N6特性概览

STM32N6是意法半导体最新且性能最强劲的STM32 MCU，它强在：

专用嵌入式神经处理单元（NPU）STM32N6集成ST自研硬件NPU，处理能力达600GOPS；同时具有3TOPS/W的极低功耗，在运行AI模型时，不需要任何散热装置。
Arm Cortex-M55内核 STM32N6内核为Cortex-M55，主频达800MHz，新增150个DSP矢量扩展指令集（MVE），可实现在数据被送到NPU之前的预处理，或从NPU得到结果的后处理。
大容量嵌入式RAM STM32N6内置4.2 Mbytes嵌入式RAM，支持实时数据处理和多任务处理，如存储NPU运算中的推理数据，或作为帧缓存，或H264压缩时的中间数据。
强大的计算机视觉能力 STM32N6集成并行和MIPI CSI-2摄像头接口及专用图像处理单元（ISP），提供600GOPS的AI处理算力，可胜任很多机器视觉应用。
扩展的多媒体功能 STM32N6集成2.5D图形加速器、H264编码器，以及JPEG编解码的硬件加速，能轻松实现在运行AI处理时，把从摄像头获取的视频通过以太网口或USB（UVC协议）传输到外部。
增强的安全功能 STM32N6包括为Cortex-M55核和NPU配备的Arm TrustZone，目标认证SESIP3、PSA L3。

2. NPU引入MCU，将触发边缘AI应用新场景的“aha moment”

STM32N6之所以能够实现MPU级别的AI性能，是因为它搭载了神经网络硬件加速单元—Neural-ART加速器，这是ST自研的神经处理单元（NPU），运算吞吐量高达600 GOPS（每秒6000亿次操作），比不具备NPU的STM32H7高出600倍。

NPU是专为加速神经网络计算和人工智能相关任务而设计的，针对矩阵乘法、卷积和其他线性代数运算进行了优化。因此，NPU在运行和处理AI算法非常高效，非常擅长处理图像分类、语音处理以及自然语言等多模态模型。NPU在处理AI相关任务时，功耗非常低，尤其适合电池供电的设备。不仅如此，它还可以减少微控制器上处理AI任务的延迟，这对于实时应用来说非常重要。

通过将NPU引入MCU，它将为您的人工智能应用开辟出一系列全新的可能性，为更高级和更复杂的AI用例甚至多模态场景打开大门，而不仅仅是单模态场景。

NPU带来的性能提升也是非常显著的。如上图，选取一些如图像分类、对象检测、语音识别等非常经典的神经网络模型，让这些模型分别运行在STM32N6的NPU上，也运行在STM32N6的Cortex-M55内核上，通过比较，可以发现运行这些神经网络模型时，推理性能提升了26倍到134倍。

3. STM32N6完备开发工具链邂逅成熟产品生态

AI应用的开发，除了硬件性能，软件支持也非常重要。STM32N6拥有完备的开发工具链和成熟的软件生态系统，原生支持多种主流人工智能框架，如TensorFlow和Keras。对于其他人工智能框架，如PyTorch，STM32N6通过ONNX格式来支持。ONNX是一种中间转换格式，可用于将任何神经网络模型格式转换为开放和标准化的格式。这体现了STM32N6 NPU工具链的灵活性，未来将支持更多的人工智能框架和应用层。

ST还提供一个完整的软件生态系统，极大地促进并优化基于STM32N6的新型人工智能应用的开发过程。这一生态系统的核心是ST Edge AI Suite，它由三部分组成：首先是Edge AI Model Zoo，这是一个免费软件工具的资源库，汇聚了免费的软件工具、实用的边缘AI模型和代码示例，以及详尽的文档资料。无论开发者经验丰富与否，都能在其中找到创建边缘人工智能应用所需的支持。其次是Edge AI Developer Cloud在线平台，开发者可以通过托管在这个云平台上的板卡对自己的AI模型进行远程性能基准测试。最后是STM32Cube.AI和ST Edge AI Core，这两款工具是模型优化器，可以将您的神经网络转换为可以在设备上执行的C代码。