Encoder-only model(Autoencoding model)

  • 使用掩码语言模型(Masked Language Modeling, MLM)进行预训练
  • 输入原始语句和掩码,训练目标是预测掩码标记,一遍重建原始句子->也称为降噪目标(denoising)
  • 自动编码模型对输入序列进行了双向表示,这意味着模型对标记的完整上下文有所了解,而不仅仅是对之前的单词有所了解。
  • 适合双向上下文的任务
    • sentence classification tasks句子分类任务,如sentiment analysis情感分类
    • token-level tasks:如Named entity recognition命名实体识别
    • word classification 单词分类
  • 示例:BERT、ROBERTA

Decoder-only model(Autoregressive model)

  • 使用causal language modeling(CLM)进行预训练
  • 上下文是单向的
    • Text generation 文本生成
    • Other emergent behavior
      • Depends on model size
  • 示例:GPT、BLOOM

Sequence-to-Sequence models

使用原始transformer之外的编码器和解码器部分
使用span corruption对编码器进行预训练
(span corruption,跨度破坏,模型需要根据上下文来预测文本中被遮蔽掉的连续跨度(span)的词语,而不是仅仅预测单个词语)

  • 适用
    • Translation
    • Text summarization
    • Question answering
  • example:T5、BART

训练LLM的计算挑战

  • 常见问题
    • OutOfMemoryError

scale of the problem

  • 参数量
    1 parameter = 4 bytes (32-bit float)
    1B parameters = 4 ∗ 10 9 4*10^9 4109bytes = 4GB

  • 训练–每个模型参数增加20 bytes的内存
    要训练模型的话,还需要考虑训练期间使用GPU内存的其他组件

    • Adam优化器的状态参数2个
    • Gradients
    • Activations
    • temp memory
    • 考虑训练期间的所有开销,实际上需要大约6倍与模型权重所占用的GPU RAM 在这里插入图片描述
  • 1B参数需要的GPU RAM
    在32-bit精度下训练1B参数的模型,大约需要24GB的GPU RAM,这对于消费类硬件来说太大了,若想用单处理器进行训练,这对数据中心使用的硬件也很有挑战

  • 如何减少训练的内存需求

    • Quantization量化
      通过将权重精度从32位浮点数降低到16位浮点数或8位整数减少存储模型权重所需的内存
      • 相关库:
        • FP32:32-bit full position
        • FP16、Bfloat16:16-bit half precision、8-bit integers
          BF16提高了训练稳定性,并且得到了NVIDIA的A100等新GPU的支持
          BF16通常被描述为截断的32位浮点数(因为他仅捕获了16位的完整32位浮点数)

高效的多GPU计算策略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86088.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86088.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/86088.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++信奥赛闯关题目1

1闰年 输入一个年份,输出它是否为闰年 闰年的规则: 描述:能被4整除,并且不能被100整除的,再加上可以被400整除的 版本一:原始版 #include <iostream> #include <cmath> using namespace std; int main() {int y;cin>>y;bool x = y%4==0&&y…

Qt+OPC开发笔记(三):OPC客户端订阅特点消息的Demo

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/148868209 长沙红胖子Qt&#xff08;长沙创微智科&#xff09;博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV…

嵌入式开发学习日志Day8(ARM体系架构——按键、蜂鸣器及中断)

一、蜂鸣器学习 代码实现&#xff1a; 二、BSP工程管理及Makefile 1、BSP工程管理 利用BSP工程管理&#xff0c;使文档显示不杂乱&#xff1b; 将这些文件分为4类&#xff0c;并保存到4个不同的文件夹里。 首先在新的工程文件夹里创建一个之后我们编写的类似led驱动&#xff0…

Linux部署Sonic前后端(详细版)(腾讯云)

系统用的是Ubuntu 22.04 LTS 1、安装Docker sudo apt update sudo apt install -y docker.io docker-compose sudo systemctl start docker sudo systemctl enable docker# 如果不想每次用 sudo&#xff0c;可以加权限 sudo usermod -aG docker $USER 2、安装 docker-compose…

腾讯云CBS:企业级云存储的性能与可靠性重构

摘要 根据Forrester 2025年网络分析与可见性&#xff08;NAV&#xff09;报告&#xff0c;东西向流量安全与加密威胁检测成为企业核心痛点&#xff08;误报率降低需求↑40%&#xff09;。腾讯云CBS作为底层存储支柱&#xff0c;通过三副本跨可用区冗余架构与毫秒级故障切换能力…

ubuntu 22.04 更换阿里源 (wsl2 参照)

步骤 1: 备份当前源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 步骤 2: 编辑源列表文件 sudo nano /etc/apt/sources.list 步骤 3: 添加阿里云镜像源 ubuntu 阿里源地址可以在这查看 ubuntu镜像_ubuntu下载地址_ubuntu安装教程-阿里巴巴开源镜像站 …

idea中push拒绝,merge,rebase的区别

在 IntelliJ IDEA 中进行 Git 操作时&#xff0c;Push 拒绝&#xff08;Push Rejected&#xff09;、Merge 和 Rebase 是常见的冲突解决方式。它们有不同的适用场景和影响&#xff0c;下面详细说明它们的区别&#xff0c;并附上流程图帮助理解。 1. Push 拒绝&#xff08;Push …

轻松实现PDF局部擦除的技术级解决方案

在处理PDF文档时&#xff0c;我们常常会遇到这样的场景&#xff1a;想要删除某段文字、擦除一张图片&#xff0c;或者对页面内容进行局部调整。但很多编辑工具要么操作繁琐&#xff0c;要么功能受限&#xff0c;甚至还需要付费解锁核心功能。 这是一款轻便又实用的PDF编辑工具…

css color 十六进制颜色透明度

css color 十六进制颜色透明度 例&#xff1a;#FFFFFF ~~ #FFFFFF1A(10% ) 0% 为 FF10% 为 1A20% 为 3330% 为 4D40% 为 6650% 为 8060% 为 9970% 为 B380% 为 CC90% 为 E6100% 为 00

Git简介和常用命令

Git简介 Git是一款版本管理软件&#xff0c;可以在任何时间点保存文件&#xff0c;也能够恢复到以前任意时间点保存的文档&#xff0c;Git作用简单举例来说就是&#xff0c;写论文&#xff0c;有很多个版本&#xff0c;将原来的论文保存起来&#xff0c;新建一个副本&#xff…

Kafka 性能调优指南

文章目录 概述操作系统层面调优文件系统优化内存管理磁盘 I/O 优化 JVM 调优堆内存设置GC 收集器选择常见 GC 问题 Broker 端调优版本兼容性关键参数配置日志段大小调优设置原则推荐配置调优考虑因素监控命令 应用层调优客户端复用资源管理多线程消费模式 性能指标调优吞吐量优…

佰力博科技与您探讨低温真空探针台如何保养

低温真空探针台是一种用于在低温或真空环境下进行电学性能测试的精密仪器&#xff0c;其保养和维护对于确保设备的稳定运行和延长使用寿命至关重要。 一、日常清洁与检查 1、使用后应立即清洁探针台&#xff0c;尤其是探针、接口和连接器&#xff0c;避免灰尘和杂质影响精度。…

MySQL:深入总结锁机制

写在前面 在 MySQL 数据库中&#xff0c;锁机制是保障并发控制和数据一致性的关键。合理运用锁机制&#xff0c;能有效避免数据竞争&#xff0c;提升数据库性能。接下来&#xff0c;我们就深入了解 MySQL 中的各类锁。 博主总结&#xff08;注&#xff1a;针对总结的详解补充在…

AI+OT安全,让威胁情报实现主动防御

当前&#xff0c;网络犯罪组织的运作模式正日趋“企业化”&#xff0c;给全球网络安全带来了严峻挑战。企业以及各类组织机构有必要采用威胁情报驱动的防御体系&#xff08;Threat-Informed Defense, TID&#xff09;&#xff0c;将安全运营模式从被动响应彻底转向基于威胁情报…

深度剖析:UDS上下行分离隧道如何绕过主流防火墙?

&#x1f525; 深度剖析&#xff1a;UDS上下行分离隧道如何绕过主流防火墙&#xff1f; &#x1f4ca; 系统架构图 #mermaid-svg-lv5FKIvBMKPeTFuW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-lv5FKIvBMKPeTFuW …

Vue 使用vue-cli

Vue 渐进式JavaScript 框架 基于Vue2的学习笔记 - 使用Vue-cli 笔记 目录 使用vue-cli 创建项目 配置文件 启动项目 入口文件 Index.html Main.js Eslint修复 第一种 第二种 第三种 更换为淘宝源 查看当前配置 配置淘宝源 验证配置 总结 使用vue-cli 创建项目…

Sentinel实现原理

Sentinel 是阿里巴巴开源的分布式系统流量控制组件&#xff0c;主要用于服务保护&#xff0c;涵盖流量控制、熔断降级、系统负载保护等功能。 以下是 Sentinel 的实现原理&#xff0c;使用中文简要说明&#xff1a; 1. 总体架构 Sentinel 采用 轻量级 设计&#xff0c;分为 核…

DeepSeek生成HTML5生命天数计算器

DeepSeek生成HTML5生命天数计算器 让DeepSeek生成一个生命天数计算器 提示词prompt 帮我做一个我活了多少天的网页 用户输入出生日期即可显示我活了多少天 页面ui要好看点&#xff0c;加上显示官方统计 人一生平均可以活多少天 自动计算剩余天数。帮我按照上述需求再次生成一个…

如何使typora图片不居中留白?

如何使typora图片不居中留白&#xff1f; 驻波使用typora记笔记的时候&#xff0c;好几次插入图片太大选择缩小都会发现图片仍然滞留在中间&#xff0c;居中显示&#xff0c;但我本人觉得并不好看&#xff0c;所以我决定改一下&#xff0c;于是有了这篇博客 检查看原理 软件内…

高精度频率基石:超低相噪恒温晶振的全场景应用解决方案

在科技高速发展的今天&#xff0c;频率源作为电子系统的 “心脏”&#xff0c;其稳定性与可靠性直接决定着通信、导航、测量等关键领域的性能上限。深度洞察行业需求&#xff0c;重磅推出SYN3627L 型 100MHz 恒温晶振&#xff08;OCXO&#xff09;。这款集高稳定性、低相位噪声…