猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent

近年来,多模态大模型的发展迅猛,但如何赋予智能体类似人类的长期记忆能力,一直是研究中的核心挑战。字节跳动开源的 M3-Agent,正是面向这一问题提出的创新解决方案。本文将从系统原理、技术特点、基准测试结果以及本地运行方式等方面,为大家详细解读。

猫头虎开源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent


文章目录

  • 猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent
    • 一、M3-Agent 简介
    • 二、系统原理
    • 三、M3-Bench:长视频问答基准
    • 四、实验与结果
    • 五、本地运行指南
      • 环境配置
      • 视频切分(示例)
      • 生成记忆图谱
      • 可视化
    • 六、总结

一、M3-Agent 简介

M3-Agent 是一款具备长期记忆能力的多模态智能体,能够实时处理视觉与听觉输入,并将其转化为长期记忆。它不仅可以存储情景记忆,还能进一步抽取和积累语义记忆,从而逐步形成世界知识。

其核心创新在于:记忆系统以实体为中心。这意味着与某个实体相关的多模态信息(例如一个人的面部、声音、相关知识)会被统一组织成图谱结构,帮助模型实现更深入和一致的环境理解。

主要能力包括:

  • 实时多模态输入:处理视频、音频等流数据。
  • 长期记忆:支持情景记忆与语义记忆的积累。
  • 跨模态推理:利用实体中心图谱进行多轮迭代推理。
  • 任务执行:从长期记忆中检索相关信息,辅助完成复杂任务。

二、系统原理

M3-Agent 的系统由两个并行过程组成:

  1. Memorization(记忆生成)

    • 实时处理视频与音频流,生成情景记忆。
    • 在此基础上提炼出语义记忆,构建长期图谱。
  2. Control(推理与执行)

    • 接收指令后,迭代思考并从长期记忆中检索信息。
    • 基于记忆与推理结果,生成最终行动或回答。

M3-Agent Architecture

这种 多模态图谱化的记忆结构,让 M3-Agent 更接近人类的认知模式。


三、M3-Bench:长视频问答基准

为评估多模态智能体的记忆与推理能力,M3-Agent 团队构建了 M3-Bench 基准数据集,包括两个子集:

  • M3-Bench-robot:100 个真实机器人视角的长视频。
  • M3-Bench-web:920 个来自网络的多样化视频。

这些数据配套有开放式问答标注,用于考察智能体的人类理解、知识抽取、跨模态推理等关键能力。

M3-Bench

实验表明,M3-Agent 在 M3-Bench 和 VideoMME-long 等任务上显著优于基线模型,尤其在需要长期记忆的场景中表现突出。

Benchmark Results


四、实验与结果

在与强基线模型(Gemini-1.5-pro 和 GPT-4o 提示式代理)对比中,M3-Agent 在多个测试集上均取得领先:

  • M3-Bench-robot:+8.2%
  • M3-Bench-web:+7.7%
  • VideoMME-long:+5.3%

这些结果证明了长期记忆与跨模态图谱推理的有效性。


五、本地运行指南

M3-Agent 提供了完整的开源代码,研究者可在本地运行。以下是主要步骤:

环境配置

bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4

视频切分(示例)

#!/bin/bash
video="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); dostart=$((i * 30))output="data/clips/$video/$i.mp4"ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done

生成记忆图谱

python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl

可视化

python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id 1

更多运行与训练说明,请参考 官方仓库。


六、总结

M3-Agent 展示了具备长期记忆的多模态智能体的可行路径。其核心亮点在于:

  • 实体为中心的多模态记忆图谱,保证了理解的一致性与深度。
  • 支持情景与语义记忆,逐步积累长期知识。
  • 基于记忆的迭代推理,在跨模态任务中表现卓越。

这一框架不仅推动了多模态智能体研究,更为未来人机交互和智能助手的发展提供了重要参考。

猫头虎开源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/93690.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/93690.shtml
英文地址,请注明出处:http://en.pswp.cn/web/93690.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十六届蓝桥杯青少组C++省赛[2025.8.10]第二部分编程题(6、魔术扑克牌排列)

参考程序&#xff1a;#include<bits/stdc.h> using namespace std; long long dp[105]; long long c(int n) {dp[0] 1;for(int i1; i< n; i){for(int j0; j<i; j){dp[i] dp[j] * dp[i -1-j];}}return dp[n]; } int main() {int n;cin >> n;cout <<c(n…

【实时Linux实战系列】实时平台下的图像识别技术

在当今数字化时代&#xff0c;图像识别技术已经广泛应用于各个领域&#xff0c;如自动驾驶、安防监控、智能医疗等。它通过计算机对图像进行分析和处理&#xff0c;从而实现对物体、场景或人的识别。实时Linux作为一种高效的实时操作系统&#xff0c;为图像识别技术提供了强大的…

IPD流程执行检查表

IPD流程执行检查表 稽查

Jmeter的安装与使用教程

基于jdk1.8版本的Jmeter的下载与安装和使用教程。 一.安装jmeter 官网下载就行下载压缩包解压就行 Jmeter下载官网&#xff1a;http://jmeter.apache.org/download_jmeter.cgi找到安装包的下载位置&#xff0c;解压进入文件夹的bin文件夹下jmeter.bat。二.配置环境变量 1、“此…

docker 数据卷、自定义镜像操作演示分享(第二期)

数据卷1.1、背景前面有个docker go web demo应用示例&#xff0c;每次为了部署go_web_demo工程&#xff0c; 需要将使用到的cp的命令将宿主主机内的go_web_demo目录下的代码文件&#xff08;一般是编译后的二进制执行文件&#xff09;复制到容器内部。 数据卷&#xff1a;将宿主…

Pandas 入门到实践:核心数据结构与基础操作全解析(Day1 学习笔记)

目录 一、Pandas 概述 1. 什么是 Pandas 二、核心数据结构 1. Series 索引 显示索引 隐式索引 创建方式 属性与方法 数据访问 索引访问 切片访问 布尔索引 2. DataFrame 创建方式 属性与数据访问 数据修改 三、索引操作 1. 索引类型 2. 核心索引方法 3. 切…

hadoop技术栈(九)Hbase替代方案

一、 核心替代方向 ‌云原生托管NoSQL服务&#xff1a;‌ ‌Google Cloud Bigtable&#xff1a;‌ 这是HBase在云端的“官方”替代品&#xff0c;兼容HBase API&#xff0c;底层存储和架构高度优化&#xff0c;提供高吞吐、低延迟、无缝扩展、完全托管的服务。‌如果追求兼容性…

深度解析 DDoS 攻击:运作机制与防御体系构建​

在网络安全领域&#xff0c;DDoS&#xff08;分布式拒绝服务&#xff09;攻击始终是企业与机构的 “心腹大患”。它通过操控大量 “傀儡主机” 发起海量请求&#xff0c;直接瘫痪目标服务器或网络链路&#xff0c;导致业务中断、用户流失甚至品牌声誉受损。今天&#xff0c;我们…

在linux系统中下载Andconda

下载前的准备工作 在开始下载 Anaconda 之前&#xff0c;做好充分的准备工作能避免后续出现不必要的麻烦&#xff0c;让整个过程更加顺畅。 确认系统架构 Linux 系统有 32 位和 64 位之分&#xff0c;不同架构对应的 Anaconda 安装包不同。你可以通过以下命令查看系统架构&a…

学习threejs,使用EffectComposer后期处理组合器(采用RenderPass、UnrealBloomPass、FilmPass渲染通道),实现交互式 3D blob

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录一、&#x1f340;前言1.1 ☘️THREE.EffectComposer 后期处…

LLM - windows下的Dify离线部署:从镜像打包到无网环境部署(亲测,包含插件部署)

一、离线部署原理 通过Docker的save/load机制实现镜像的物理介质迁移,配合Docker Compose编排文件的环境适配能力,可在完全断网的环境中快速部署复杂应用。整个过程分为在线环境准备和离线环境还原两个阶段。 二、在线环境操作 1. 环境准备 在线环境:一台可以访问互联网的…

前端学习之后端小白java的一些理论知识(框架)

一、Spring Framework 和 Spring boot的区别 核心定位 Spring Framework&#xff1a;一个全面的Java应用开发框架&#xff0c;提供核心功能如IoC容器、AOP等Spring Boot&#xff1a;Spring Framework的扩展&#xff0c;专注于简化Spring应用的初始搭建和开发过程 配置方式 Spri…

K8S的ingress

一。ingress的介绍对于NodePort和LoadBalance&#xff0c;这两种方法&#xff0c;都有缺点&#xff1a;1.NodePort方式缺点会占用很多集群的端口&#xff0c;当集群服务变多的时候&#xff0c;缺点更加显著2.LB的缺点就是每一个service都需要一个LB&#xff0c;浪费&#xff0c…

实现自己的AI视频监控系统-序章

目录简介视频监控系统是什么&#xff1f;该系列课程你会学到什么&#xff1f;需要准备哪些工具&#xff1f;下期预告简介 在当今快速发展的科技时代&#xff0c;人工智能&#xff08;AI&#xff09;已经深入到我们生活的方方面面。其中&#xff0c;AI视频监控系统作为安防领域…

Pytorch GPU版本安装保姆级教程

本文将介绍在anaconda环境下安装pytorch的详细步骤。 Anaconda安装教程参考Anaconda安装保姆级教程。 目录 一、工具安装 二、创建虚拟环境 三、安装Pytorch CUDA Toolkit安装 Pytorch安装 总结 一、工具安装 点击链接官网codetou.com&#xff0c;下载安装最新版即可&…

重学React(六):脱围机制二

背景&#xff1a; 话不多说&#xff0c;继续学习&#xff0c;现在是Effect时间。 前期回顾&#xff1a; 重学React&#xff08;一&#xff09;&#xff1a;描述UI 重学React&#xff08;二&#xff09;&#xff1a;添加交互 重学React&#xff08;三&#xff09;&#xff1a;状…

【MySQL】索引(B+树详解)

MySQL(五)索引 一、索引的减I/O设计 1.读取量 2.搜索树 2.1方向 2.2有序 3.分多叉 3.1B树 弊端: 3.2B树 3.2.1非叶子-搜索字段 3.2.1.1海量分叉 3.2.1.1.1最大式 3.2.1.1.2最快式 3.2.1.2缓存内存 3.2.1.2.1字段总量小 3.2.1.2.2时间复杂度 3.2.1.3区间搜索向…

GPT-5博士级AI使用教程及国内平替方案

GPT-5博士级AI使用教程及国内平替方案一、GPT-5核心升级&#xff1a;到底强在哪里&#xff1f;1. **统一入口自动思考模式**2. **256K上下文40万汉字记忆**3. **人格系统长期记忆**4. **编程能力史诗级增强**二、注册与访问&#xff1a;国内用户也能免费上车1.官方渠道&#xf…

云计算-多服务集群部署实战指南:从JumpServer到Kafka、ZooKeeper 集群部署实操流程

简介围绕企业级服务部署与集群搭建&#xff0c;基于 OpenStack 私有云平台&#xff0c;介绍了一系列关键服务的实操过程。内容涵盖使用 CentOS7 系统部署 JumpServer 堡垒机并对接 controller 与 compute 节点&#xff0c;构建 RabbitMQ 集群&#xff08;含磁盘节点与内存节点配…

深入剖析Spring IOC容器——原理、源码与实践全解析

&#x1f31f; 你好&#xff0c;我是 励志成为糕手 &#xff01; &#x1f30c; 在代码的宇宙中&#xff0c;我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光&#xff0c;在逻辑的土壤里生长成璀璨的银河&#xff1b; &#x1f6e0;️ 每一个算法都是我绘制…