Mamba LLM 架构简介:机器学习的新范式

探索 Mamba LLM 的强大功能,Mamba LLM 是来自一流大学的变革性架构,重新定义了 AI 中的序列处理。语言模型是一种经过训练的机器学习模型,用于在自然语言上执行概率分布。它们的架构主要由多层神经网络组成,例如递归层、前馈层、嵌入层和注意力层。这些层组合在一起以处理给定的输入文本并生成输出预测。

2023 年底,卡内基梅隆大学和普林斯顿大学的研究人员发表了一篇研究论文,揭示了一种名为 Mamba 的大型语言模型 (LLM) 的新架构。Mamba 是一种与序列建模有关的新状态空间模型架构。它是为了解决 transformer 模型的一些限制而开发的,尤其是在处理长序列时,并且已经显示出有希望的性能。

Mamba

Mamba 是一种新的 LLM 架构,它集成了结构化状态空间序列 (S4) 模型来管理冗长的数据序列。S4 结合了递归、卷积和连续时间模型的最佳功能,可以有效且高效地模拟长期依赖关系。这使它能够处理不规则采样的数据,具有无限的上下文,并在整个训练和测试过程中保持计算效率。

Mamba 扩展了 S4 范式,带来了几项值得注意的改进,尤其是在处理时变作方面。它的架构围绕着一种特殊的选择机制展开,该机制根据输入修改结构化状态空间模型 (SSM) 参数。

因此,Mamba 可以通过只关注序列中的关键信息来成功过滤掉不太重要的数据。根据 Wikipedia 的说法,“该模型从时不变框架过渡到时变框架,这会影响系统的计算和效率。

主要特点和创新

Mamba 偏离了传统的 attention 和 MLP 块,使其与众不同。这种简化使模型更轻、更快,并且与序列的长度呈线性缩放,这是其前辈都无法实现的壮举。

Mamba 的关键组件包括:

选择性状态空间 (SSM):根据当前输入有选择地处理信息的递归模型是 Mamba SSM 的基础。这使他们能够过滤掉无关数据并专注于相关信息,这可能会带来更高效的处理。
简化的架构: Mamba 用一个单一的、有凝聚力的 SSM 块取代了 Transformers 错综复杂的注意力和 MLP 块。这旨在加速推理并降低计算复杂性。
硬件感知并行性:Mamba 的性能可能会更好,因为它使用循环模式和专为硬件效率而创建的并行算法。
另一个关键组成部分是线性时间不变性 (LTI);LTI 是 S4 模型的核心功能之一。这一特性表明,模型的参数在所有时间步中保持不变,从而保持模型动力学的一致性。使用 LTI 构建序列模型更容易、更有效,LTI 是递归和卷积的基础。

Mamba LLM 架构详细信息

Mamba 的架构进一步强调了机器学习进步的重要性。它通过引入选定的状态空间模型 (SSM) 层来修改模型处理序列的方式。这使 Mamba 能够做两件极其重要的事情:

  1. 关注相关信息 – Mamba 可以通过为每个输入分配不同的权重来为任务确定更多预测数据的优先级。

  2. 动态适应输入 – 由于模型能够适应输入,Mamba 可以轻松处理各种序列建模工作。

因此,Mamba 可以以前所未有的效率处理序列,这使其成为涉及冗长数据序列的任务的完美选择。

Mamba 的设计理念基于对现代硬件功能的认识。它旨在充分利用 GPU 计算能力,保证:

  • **优化的内存使用:**通过设计 Mamba 的状态扩展以适应 GPU 的高带宽内存 (HBM),可以缩短数据传输时间并加快处理速度。

  • **最大化并行处理:**Mamba 通过协调其计算与 GPU 计算的并行性质,达到了为序列模型建立新基准的性能水平。

Mamba VS Transformer

GPT-4 等 Transformer 的引入进入了自然语言处理 (NLP) 领域,并为多项自然语言任务建立了基准。长期以来,较长的序列一直是变压器的眼中钉,因为它们会严重阻碍其效率。

这个缺陷正是 Mamba 擅长的地方。也就是说,mamba 可以比变压器更快地处理冗长的序列,并且由于其独特的架构而更加简单。

Transformer 架构

Transformer 非常擅长处理数据序列,例如语言模型的文本。它们同时处理完整的序列,这与早期按顺序处理数据的模型不同。这种固有的功能使他们能够捕获数据中错综复杂的关系。它们使用注意力机制,使模型能够在生成预测时专注于各种序列段。使用三组权重来计算此关注度:从输入数据获取的值、键和查询。

序列中的每个元素都相对于其他每个元素进行加权,以指示它应该有多少权重(或 “注意力”)来预测序列中的下一个元素。Transformer 由两个主要块组成:创建输出的 decoder 和处理输入数据的 encoder。编码器由几层组成 - 每层都有两个子层:一个基本的、按位置的、完全连接的前馈网络和一个多头自注意力机制。为了帮助训练深度网络,每个子层都使用残差连接和归一化。

与编码器一样,解码器由两层和两个子层组成,但它也增加了第三个子层,用于处理编码器输出上的多头注意力。由于解码器的 sequential 性质,解码器的 autoregressive 属性被保留下来,这将对位置的预测限制为仅考虑较早的位置。

因此,Transformers 试图通过利用更复杂的注意力过程来解决冗长序列的问题,但 Mamba 采取了不同的方法。

Mamba 架构

Mamba 利用选择性状态空间。这种方法解决了Transformers 在长序列下计算效率低下的问题。Mamba 的架构使更快的推理和线性序列长度扩展成为可能,为序列建模创造了一种新的范式,随着序列越来越长,这种范式可能会被证明会更加有效。由于我们在上面深入探讨了 Mamba 的架构,因此我们不会在这里深入讨论。

特征变压器曼巴
建筑基于注意力基于 SSM
复杂性降低
推理速度O(n)O(1)
训练速度O(注2)O(n)

值得注意的是,尽管 SSM 与 Transformer 相比具有许多优势,但后者可以处理比 SSM 存储在内存中更长的序列,需要更少的数据来学习类似的任务,并且在需要从输入上下文检索或复制的任务中优于 SSM,即使参数更少。

开始使用 Mamba

如果您有兴趣使用 Mamba 或在项目中利用它,则必须具备以下条件:

  • Linux的
  • 英伟达图形处理器
  • PyTorch 1.12+ 版本
  • CUDA 11.6+ 的

要从 Mamba 存储库安装所需的软件包,请使用一些简单的 pip 说明:

  • [Option] : 在 Mamba 块内部使用的简单因果 Conv1d 层的有效实现。pip install causal-conv1d>=1.2.0
  • pip install mamba-ssm:核心 Mamba 包。

它也可以通过 from this repository从源代码构建。pip install .

如果 PyTorch 版本导致兼容性问题,可以使用与 switch 一起使用来帮助。这些模型是在 Pile 和 SlimPajama 数据集等大型数据集上训练的,旨在满足各种计算要求和性能基准。pip``--no-build-isolation

Mamba 模型具有多个接口级别,但主模块是包装选择性 SSM 的 Mamba 架构块。

# Source: Mamba Repository
import torch
from mamba_ssm import Mambabatch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(# This module uses roughly 3 * expand * d_model^2 parametersd_model=dim, # Model dimension d_modeld_state=16,  # SSM state expansion factord_conv=4,    # Local convolution widthexpand=2,    # Block expansion factor
).to("cuda")
y = model(x)
assert y.shape == x.shape

Mamba 的应用

Mamba LLM 的推出是 LLM 架构领域的一个重大潜在转变。Mamba 更快、更高效且可扩展,可以毫不费力地以高性能标准处理长序列,这解释了为什么它将在塑造复杂 AI 系统的未来方面发挥关键作用。

也就是说,下一波 AI 创新可能由 Mamba 的有效性和性能带来,它为创建越来越复杂的模型和应用程序铺平了道路。它的潜在影响力是巨大的,包括音频和语音处理应用程序、长篇文本分析、内容创建、实时语言翻译等。

这可能会带来革命性的行业包括:

  • 医疗: Mamba 可以通过快速分析遗传数据来加快开发个性化健康药物的过程。

  • **金融:**可以部署 Mamba 来分析长期市场趋势,从而获得更准确的库存预测。

  • 顾客服务: Mamba 能够为监控长篇讨论的聊天机器人提供支持,从而改善客户沟通

结论

Mamba 不仅为当前的序列模型提供了增量改进;它重新定义了什么是可能的。随着它的推出,人工智能的历史将翻开新的篇章,计算效率低下和序列长度限制最终变得过时。在过去的几年里,我们看到了 AI 从 RNN 到Transformers,再到现在的 Mamba,每一步都离实现能够与人类相媲美的 AI 进行深度思考和信息处理更近一步。Mamba 体现了革命性的精神,通过其选定的状态空间方法和线性时间缩放推动 AI 领域向前发展。Mamba 标志着人工智能前景广阔的开始。这是一种为未来设计的范式,并将以其无限的潜力对 AI 产生重大影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95213.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95213.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/95213.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GaussDB生产扩容引起的PANIC问题处理案例

1 环境信息CPU:8C内存:64GGaussDB版本:24.7.32解决方案部署形态:HCS部署形态:1主1从1日志扩容原因:当前的配置满足不了max_connections为2000值,即当前的业务最大连接数超过2000个而按照8C64G的配置最多满足…

【168页PPT】华为流程管理体系构建与落地(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 https://download.csdn.net/download/2501_92796370/91662548 资料解读:【168页PPT】华为流程管理体系构建与落地 详细资料请看本解读文章的最后内容。华为,作为全球知名…

基于CotSegNet网络和机器学习的棉花点云器官分割和表型信息提取

一、引言PointNet作为点云处理领域的先驱与里程碑式深度学习模型,以其卓越的性能和对无序点云数据直接处理的能力而闻名。博主将分享1篇发表在《Computers and Electronics in Agriculture》(中科院1区TOP)的“Organ segmentation and phenot…

经典卷积神经网络CNN

一、CNN视觉处理三大任务:图像分类、目标检测、图像分割上游:提取特征,CNN下游:分类、目标、分割等,具体的业务1. 概述卷积神经网络是深度学习在计算机视觉领域的突破性成果。在计算机视觉领域, 往往我们输入的图像都很…

11.1.5 实现文件删除,共享和共享下载排行榜

1、图床分享图片api_sharepicture.cc sharepicture_cgi.c 分享后每个人都可以看到。 数据库: DROP TABLE IF EXISTS share_picture_list; CREATE TABLE share_picture_list (id int(11) NOT NULL AUTO_INCREMENT COMMENT 编号,user varchar(32) NOT NULL COMMENT …

【Java后端】SpringBoot配置多个环境(开发、测试、生产)

在 Spring Boot 中配置多个环境(开发、测试、生产)通常用 配置文件分环境管理 启动参数切换 的方式来实现。下面一个完整的实践指南:🔹 1. 使用多配置文件管理环境 Spring Boot 默认支持 application-{profile}.properties 或 ap…

HTTP 分块传输编码:深度解析与报文精髓

分块传输编码(Chunked Transfer Encoding)是 HTTP/1.1 协议中的一项核心特性,它允许服务器在不预先知道响应体总大小的情况下,高效地传输数据。这项技术解决了传统 Content-Length 机制的局限性,使得 HTTP 协议能够完美…

Vue 项目首屏加载速度优化

Vue 项目首屏加载从 5s 到 1.5s:4 步落地优化方案,附完整代码 数据对比前段时间我在做一个活动时,打包加载后发现打开页面要等半天,经过几天的优化,最终将首屏加载时间从5秒压到 1.5 秒。这篇文章会把整个优化过程拆解…

Java学习第十六部分——JUnit框架

目录 一.概述 二.作用 三.版本 四.优势 五.局限性 六.发展方向 七.核心组件 1 测试用例 2.断言(Assertions) 3.测试生命周期 4.测试运行器 八.简单示例 九.JUnit 4 与 JUnit 5 的区别 十.idea项目实战 1.在idea中创建Java项目&#xff0c…

[吾爱原创] 千千每日计划

[吾爱原创] 千千每日计划 链接:https://pan.xunlei.com/s/VOYuE8p-KIV-NJr2_0d1Ak9YA1?pwdbqez# 介绍:千千系列的最后一款软件,一款每日计划的一款软件,并且支持时间段修改和打卡和导入导出等功能。 功能: 1.设置每天的计划 2…

docker命令(二)

目录 docker命令 1.inspect命令(查看镜像信息) 2.tag命令(为镜像起别名) 3.--help命令(查看命令的使用帮组) docker 命令 --help docker --help 4.run命令 1.格式 2.启动tomcat镜像 3. docker 不能被外部访…

Dockerfile实现java容器构建及项目重启(公网和内网)

公网情况0.Dockerfile关键字关键字作用一句话出现位置FROM指定基础镜像(任何 Dockerfile 必须且首行)全局RUN在镜像构建阶段执行命令(常用来安装软件)构建期COPY把宿主机文件/目录复制进镜像构建期ADD类似 COPY,但额外…

SpringCloud与Dubbo深度对比:架构、性能与生态全解析

引言在微服务架构盛行的今天,服务治理框架的选择成为企业技术栈决策的关键环节。Spring Cloud和Dubbo作为Java生态中最具代表性的两大微服务框架,各自拥有独特的优势和适用场景。本文将从架构设计、服务治理、性能表现、生态系统等多个维度进行深度对比&…

简历书写---自我评价怎么写

前言 今天一对一辅导了很多同学做简历,看到很多同学简历上都有一栏:自我评价 那我们就要思考一下,我们搞技术的,一份技术简历,自我评价上怎么写,才能算一个加分点呢? 观点分享 首先,…

嵌入式Linux学习 - 数据库开发

目录 一. 在终端的使用 1. 下载 2. 操作 3. 相关函数 1.增 2. 删 3. 改 4. 查 5. 补充函数 二. 在软件的使用 1. 下载 2. 操作 三. 在编程的使用 1. 下载 2. 相关函数 1. 打开 2. 读写执行sql语句 3. 关闭 一. 在终端的使用 1. 下载 sudo apt-get install …

产品运营必备的职场通用能力有哪些?如何一步步提升?

在流量红利消退的存量竞争时代,产品运营岗位正经历价值重构。单纯的活动策划与用户维护已无法满足发展需求,数据驱动的精细化运营成为行业分水岭。面对这场变革,复合能力建设与前瞻工具掌握是运营人突破天花板的密钥。推荐考取CDA数据分析师&…

ESPTimer vs GPTimer:ESP32 定时器系统深度解析

第十五章和第十六章分别学习了​​ESPTimer​​ 和 ​​GPTimer​​ ,那这两种定时器有什么区别,如何使用呢,下面探讨下。1. 两种定时器对比介绍1.1 两种定时器设计在 ESP32 开发中,​​ESPTimer​​ 和 ​​GPTimer​​ 是两种完…

【70页PPT】WMS助力企业数字化转型(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 https://download.csdn.net/download/2501_92808811/91806268 资料解读:【70页PPT】WMS助力企业数字化转型 详细资料请看本解读文章的最后内容。仓储管理在企业运营中占据关键地位&a…

[光学原理与应用-337]:ZEMAX - 自带的用于学习的样例设计

ZEMAX(OpticStudio)内置了大量样例设计文件,这些文件覆盖了从基础光学原理到复杂系统设计的全场景,是学习光学设计、掌握软件操作、理解像差理论的绝佳资源。以下是ZEMAX自带样例设计的详细分类、使用方法及学习价值分析&#xff…

下一波红利:用 #AI编程 闯入小游戏赛道,#看广告变现 模式正在崛起!

文章标题(可选,均包含核心关键词) 【主推标题】 #AI编程制作小游戏 的终极 #变现 指南:如何通过 #看广告变现 轻松赚钱 【疑问式标题】 #AI制作小游戏 真的能赚钱吗?揭秘 #AI编程赚钱 的四大核心路径与广告变现策略 【趋势型标题】 下一波红利:用 #AI编程 闯入小游戏赛道…