rag系列文章目录

文章目录

  • rag系列文章目录
  • 前言
  • 一、简介
  • 二、注意力机制
  • 三、架构优势
  • 四、模型加速
  • 总结


前言

近两年大模型爆火,大模型的背后是transformer架构,transformer成为家喻户晓的词,人人都知道它,但是想要详细讲清楚,需要专业的算法人员来讲解,网上也有很多资料,我就不班门弄斧了。作为一个经常使用大模型的人,也需要一点知识,来认识它,这样才能更好的使用它。


一、简介

Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,由Google团队在2017年的论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并成为现代大模型(如GPT、BERT等)的核心基础。

Transformer的架构图如下所示,它主要有以下几个重要部分,分别是输入embedding、位置encoding、多头自注意力、前馈神经网络(Feed-Forward Network)、残差连接与层归一化(Add & Norm)、编码器和解码器。

图中左侧部分是编码器,输入embedding加位置encoding后,进入N层的编码器层,得到一个矩阵X(n行d列,n是输入的token数,d是向量的维度)。

图中右侧部分是解码器,它的输入包含两部分,一个是左侧编码器的输出,一个是预测值,它是不断生成的,所以图中说是shifted right不断右移。这种根据自己输出结果,然后影响到后面输出结果的机制,成为自回归。

在这里插入图片描述

二、注意力机制

Transformer的核心是自注意力机制,输入X矩阵,transformer使用三个权重矩阵将X投影为Q/K/V矩阵
在这里插入图片描述
注意力计算公式如下:
在这里插入图片描述

这个公式的含义是什么呢?举例来说,“The cat sat on the mat because it was tired.”当模型在预测 “it” 的含义时,Query 是“it”的向量。它会去匹配所有 Key(cat, sat, mat, …),结果发现 “cat” 的 Key 跟“it”的 Query最相关。所以 Attention 输出时,会给 “cat” 的 Value 更高的权重。这样模型就能理解“it”指的是“cat”,而不是“mat”。输出的值就是一个新的向量,代表“it”的上下文含义(包含了“cat”的信息)。

Attention(Q,K,V) 的实际含义是:让每个 token 在全局范围内“问一圈”,找到跟自己最相关的信息,并把这些信息汇总到自己的新表示里。也就是说,经过变换之后,每个token的向量值,携带了它相关的语义信息。
获取注意力值之后,再经过多头拼接(多头注意力机制),残差拼接,前馈网络,最终得到编码器的输出。

三、架构优势

 并行计算,transformer对位置信息进行encoding,不想RNN需要依赖前面的状态,后续计算都是矩阵运算,天然支持并行。

 长距离依赖,RNN针对长句子,容易出现梯度消失问题,而transformer距离不是问题
如下图所示,句子中间因为有一个从句,导致book和was距离很远,但是transformer注意力机制,会把两者的关系拉进。
在这里插入图片描述

四、模型加速

了解了基本原理以及处理过程,如何加速大模型呢,可以从以下几个方面:

  1. 硬件方面
    因为需要大量矩阵运算,那么就gpu上优化,比如:GPU/TPU 并行、流水线/张量并行。
  2. 算法层面
    注意力复杂度n的平方,也就是每个token都和其他的token有关系,算法方面可以稀疏注意力 (Sparse Attention), 只计算局部窗口或选定位置的注意力
  3. 模型层面
    里面有很多神经网络,可以进行结构压缩(蒸馏、剪枝、量化、MoE)
  4. 推理策略
    比如使用vllm推理时,批处理、并行解码

总结

作为一个经常使用大模型的应用开发人员而言,经常会面对的问题是如何让大模型推理更快一些,这包括首个token输出的时间以及每个token输出的平均时间。掌握一点transformer架构,可以方便于调节一些模型参数,优化大模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/93412.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/93412.shtml
英文地址,请注明出处:http://en.pswp.cn/web/93412.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

后台管理系统-3-vue3之左侧菜单栏和头部导航栏的静态搭建

文章目录1 CommonAside组件(静态搭建)1.1 Menu菜单1.2 准备菜单数据1.3 循环渲染菜单1.3.1 el-menu结构1.3.2 动态渲染图标1.4 样式设计1.5 整体代码(CommonAside.vue)2 CommonHeader组件(静态搭建)2.1 准备图片URL数据2.2 页面布局2.3 样式设计2.4 整体代码(CommonHeader.vue)…

VS Code配置MinGW64编译非线性优化库NLopt

VS Code用MinGW64编译C代码安装MSYS2软件并配置非线性优化库NLopt和测试引用库代码的完整具体步骤。 1. 安装MSYS2 下载安装程序: 访问 MSYS2官网下载 msys2-x86_64-xxxx.exe 并运行 完成安装: 默认安装路径:C:\msys64安装完成后&#xff0c…

C#通过TCP_IP与PLC通信

C#通过TCP/IP与PLC通信 本文将全面介绍如何使用C#通过TCP/IP协议与各种PLC进行通信,包括西门子、罗克韦尔、三菱等主流品牌PLC的连接方法。 一、PLC通信基础 PLC通信协议概览协议类型适用品牌特点Modbus TCP通用协议简单易用,广泛支持Siemens S7西门子PL…

Java 学习笔记(基础篇3)

1. 数组&#xff1a;① 静态初始化&#xff1a;(1) 格式&#xff1a;int[] arr {1, 2, 3};② 遍历/* 格式&#xff1a; 数组名.length */ for(int i 0; i < arr.length; i){//在循环的过程中&#xff0c;i依次表示数组中的每一个索引sout(arr[i]);//就可以把数组里面的每一…

知识点汇总linuxC高级-3 shell脚本编程

shell脚本编程shell ---> 解析器&#xff1a;sh csh ksh bashshell命令 ---> shell解析的命令shell脚本 --> shell命令的有序集合shell脚本编程&#xff1a;将shell命令结合按照一定逻辑集合到一起&#xff0c;写到一个 .sh 文件&#xff0c;去实现一个或多个功能&…

【C++学习篇】:基础

文章目录前言1. main() 函数2. 变量赋值3. cin和cout的一些细节4. 基本类型运算5. 内存占用6. 引用7. 常量前言 C 语法的学习整理&#xff0c;作为个人总结使用。 1. main() 函数 #include <iostream> //使用输入输出流库&#xff08;cin&#xff0c;cout&#xff09;…

使用nginx反向代理kkfile

这篇说一下我解决的思路和方式哈&#xff0c;不一定适用于大家&#xff0c;可以做个参考比如我们的系统服务是http://10.63.25.35:80&#xff0c;而我们的文件服务是在10.63.25.37:8012上&#xff0c;正常不使用代理的话&#xff0c;我们前端调用后端接口&#xff0c;后端调用k…

【低成本扩容】动态扩容实战指南

面对扩容操作时&#xff0c;下面这种操作是否也会迷惑你&#xff1f;下面来为大家解惑~size_t newcapacity 2*_capacity > (_size len)?2*_capacity:(_sizelen); //len为即将插入的字符串有效字符个数//_size为当前字符串有效字符个数//_capacity为当前容量大小//newcapa…

Product Hunt 每日热榜 | 2025-08-14

1. Autumn 标语&#xff1a;为AI初创公司简化的Stripe服务 介绍&#xff1a;Autumn帮助AI初创公司通过只需三个API调用来定价、计量和控制使用情况。基于Stripe搭建&#xff0c;它可以在一个地方管理订阅、使用情况和访问权限。无需复杂的webhooks或后端逻辑&#xff0c;非常…

Scrapy + Django爬虫可视化项目实战(二) 详细版

系列文章 Scrapy + Django爬虫可视化项目实战(一)_django scrapy-CSDN博客 实现技术 Scrapy Django Echarts 引言 可视化部分需要读者具备一定的Django基础!!! 上一个文章我们已经实现了爬取景点的数据,那么接下来就是根据爬取到的数据进行可视化 一、环境搭建 (一) 创…

选择式与生成式超启发算法总结

这里写目录标题Selection HHGeneration HHGPHH示例存在大量针对特定问题设计的启发式算法&#xff0c;近年来学术界提出了一个关键问题&#xff1a;如何选择最合适的启发式方法。这一问题推动了超启发式&#xff08;hyper-heuristic&#xff09;方法的研究发展。超启发式是一种…

NetBIOS 设置

在 Windows 系统中,WINS (Windows Internet Name Service) 和 NetBIOS 紧密相关,主要用于 NetBIOS 名称解析(将计算机名转换为 IP 地址)。WINS 是一个动态数据库,类似于 DNS,但专门用于 NetBIOS 名称解析,适用于早期 Windows 网络(如 Windows NT/2000/XP)。 1. 查看 N…

vue2 + SimpleMindMap 制作思维导图

vue2 SimpleMindMap 制作思维导图 该代码包含SimpleMindMap已知的所有功能&#xff0c;有需要的小伙伴可自行copy&#xff0c;框架使用el-ementui。其中有些图标是阿里巴巴矢量图的图片&#xff0c;可自行进行替换。保姆级教程 以下是vue文件&#xff1a; <template><…

Discord x Pulsar: 使用 Pulsar、Flink 和 Iceberg 搭建流式机器学习平台

本文整理自 Discord 机器学习工程师 David Christle 在 Pulsar Summit NA 上的演讲内容&#xff0c;一起来看 Discord 是如何基于 Pulsar 实现兼顾安全和个性化功能的实时流式机器学习平台的&#xff5e;1. 背景Discord 是一个实时⾳视频通信平台&#xff0c;⽀持⽂本/语⾳/视频…

【数据结构入门】二叉树(2)

目录 1.二叉树遍历顺序 1.1 前序&#xff08;先根&#xff09;遍历 1.2 中序&#xff08;中根&#xff09;遍历 1.3 后序&#xff08;后根&#xff09;遍历 1.4 层序遍历 1.5 深度优先遍历&广度优先遍历 2.二叉树的遍历 2.1 前根遍历&#xff08;递归&#xff09; …

【电机参数】电压、电流、转速标幺化推算过程

【电机参数】电压、电流、转速标幺化推算过程 文章目录[TOC](文章目录)前言一、标幺化目的——优化计算二、Q15与标幺化的关系三、标幺值计算1.电压标幺值2.电流标幺值3.转速标幺值四、参考资料总结前言 一、标幺化目的——优化计算 不同物理量的量纲和数值范围差异巨大&#…

v-scale-scree: 根据屏幕尺寸缩放内容

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 &#x1f35a; 蓝桥云课签约作者、…

linux设备驱动之字符设备驱动

一、cdev结构体‌成员/功能‌‌说明‌‌相关操作函数/宏‌‌kobj‌内嵌的kobject对象&#xff0c;用于Linux设备模型管理&#xff0c;实现引用计数和sysfs接口kobject_init()‌owner‌指向拥有该结构体的模块指针&#xff08;通常为THIS_MODULE&#xff09;&#xff0c;防止模块…

★CentOS:MySQL数据备份

一、cp 命令备份特点&#xff1a;优点&#xff1a;备份恢复数据快&#xff1a;直接复制文件&#xff0c;无需进行数据转换和复杂的处理&#xff0c;因此备份恢复速度非常快缺点&#xff1a;需要停止数据库服务&#xff0c;灵活性差&#xff0c;占用空间大&#xff0c;可移植性差…

Python代码规范与静态检查(ruff/black/mypy + pyproject.toml + Makefile)自动化工具链介绍

文章目录**1. 核心工具的作用****(1) black&#xff1a;代码格式化工具****(2) ruff&#xff1a;代码质量检查工具****(3) mypy&#xff1a;静态类型检查工具****2. pyproject.toml&#xff1a;统一配置中心****示例配置**&#xff08;pyproject.toml&#xff09;&#xff1a;*…