语言模型的发展历史

🏗 Early foundation models (2010年代后期)

  • 2018:ELMo(基于 LSTM 预训练 + 微调)[Peters+ 2018]
  • 2018:BERT(基于 Transformer 预训练 + 微调)[Devlin+ 2018]
  • 2019:Google T5(统一为 text-to-text)[Raffel+ 2019]

🚀 Scaling & closed (2020年代初期)

  • 2019:OpenAI GPT-2 (1.5B),流畅生成文本、出现 zero-shot [Radford+ 2019]
  • 2020:Scaling laws 提出,预测大模型表现 [Kaplan+ 2020]
  • 2020:OpenAI GPT-3 (175B),in-context learning [Brown+ 2020]
  • 2022:Google PaLM (540B),大规模但 undertrained [Chowdhery+ 2022]
  • 2022:DeepMind Chinchilla (70B),计算最优 scaling [Hoffmann+ 2022]

🌍 Open models (2020年代中期)

  • 2020/2021:EleutherAI,The Pile 数据集 + GPT-J [Gao+ 2020][Wang+ 2021]
  • 2022:Meta OPT (175B),GPT-3 复现 [Zhang+ 2022]
  • 2022:Hugging Face/BigScience BLOOM,关注数据来源 [Workshop+ 2022]
  • 2023:Meta LLaMA 系列 [Touvron+ 2023]
  • 2024:Alibaba Qwen 系列 [Qwen+ 2024]
  • 2024:DeepSeek 系列 [DeepSeek-AI+ 2024]
  • 2024:AI2 OLMo 2 [Groeneveld+ 2024][OLMo+ 2024]

🔓 Levels of openness

  • 2023:封闭模型,如 OpenAI GPT-4o [OpenAI+ 2023]
  • 2024:开放权重模型,如 DeepSeek [DeepSeek-AI+ 2024]
  • 2024:开源模型,如 OLMo(权重+数据开放)[Groeneveld+ 2024]

🌌 Today’s frontier models (2025)

  • 2025:OpenAI o3 → https://openai.com/index/openai-o3-mini/
  • 2025:Anthropic Claude Sonnet 3.7 → https://www.anthropic.com/news/claude-3-7-sonnet
  • 2025:xAI Grok 3 → https://x.ai/news/grok-3
  • 2025:Google Gemini 2.5 → https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
  • 2025:Meta LLaMA 3.3 → https://ai.meta.com/blog/meta-llama-3/
  • 2025:DeepSeek r1 → [DeepSeek-AI+ 2025]
  • 2025:Alibaba Qwen 2.5 Max → https://qwenlm.github.io/blog/qwen2.5-max/
  • 2025:Tencent Hunyuan-T1 → https://tencent.github.io/llm.hunyuan.T1/README_EN.html

效率组件

✅ 基础 (Basics)

  • 分词 (Tokenization)
  • 架构 (Architecture)
  • 损失函数 (Loss function)
  • 优化器 (Optimizer)
  • 学习率 (Learning rate)

✅ 系统 (Systems)

  • 内核 (Kernels)
  • 并行化 (Parallelism)
  • 量化 (Quantization)
  • 激活检查点 (Activation checkpointing)
  • CPU 卸载 (CPU offloading)
  • 推理 (Inference)

✅ 缩放规律 (Scaling laws)

  • 缩放序列 (Scaling sequence)
  • 模型复杂度 (Model complexity)
  • 损失度量 (Loss metric)
  • 参数化形式 (Parametric form)

✅ 数据 (Data)

  • 评估 (Evaluation)
  • 筛选 (Curation)
  • 转换 (Transformation)
  • 过滤 (Filtering)
  • 去重 (Deduplication)
  • 混合 (Mixing)

✅ 对齐 (Alignment)

  • 有监督微调 (Supervised fine-tuning)
  • 强化学习 (Reinforcement learning)
  • 偏好数据 (Preference data)
  • 合成数据 (Synthetic data)
  • 验证器 (Verifiers)

Tokenization(分词)

在这里插入图片描述
Byte-Pair Encoding(BPE)分词器 [Sennrich 等, 2015]
👉 它的核心思想就是:不断找出出现频率最高的字符对,把它们合并成一个新“词”,反复迭代,直到达到设定的词表大小。BPE 已经成为现在大部分主流大模型(比如 GPT 系列)的标配分词方案。

当然,也有一些不走分词器路线的探索:
比如 [Xue 等, 2021][Yu 等, 2023][Pagnoni 等, 2024][Deiseroth 等, 2024] 提到的 tokenizer-free 方法,直接基于字节(bytes)做处理。
这些方法很有潜力,省去了复杂的分词步骤,但目前还没能像 BPE 一样被大规模用于最前沿的大模型。

Architecture(结构)

在这里插入图片描述
Variants(变体):

  • Activation functions: ReLU, SwiGLU[Shazeer 2020]

  • Positional encodings: sinusoidal, RoPE[Su+ 2021]

  • Normalization: LayerNorm, RMSNorm[Ba+ 2016][Zhang+ 2019]

  • Placement of normalization: pre-norm versus post-norm[Xiong+ 2020]

  • MLP: dense, mixture of experts[Shazeer+ 2017]

  • Attention: full, sliding window, linear[Jiang+ 2023][Katharopoulos+ 2020]

  • Lower-dimensional attention: group-query attention (GQA), multi-head latent attention (MLA)[Ainslie+ 2023][DeepSeek-AI+ 2024]

  • State-space models: Hyena[Poli+ 2023]

Training(训练)

  • Optimizer (e.g., AdamW, Muon, SOAP)

  • Learning rate schedule (e.g., cosine, WSD)

  • Batch size (e…g, critical batch size)

  • Regularization (e.g., dropout, weight decay)

  • Hyperparameters (number of heads, hidden dimension): grid search

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90976.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90976.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90976.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信获取access_token授权的两种不同情况

1.网页授权:需要页面调用授权的sdk,首先需要获取到code参数 (A.网页版的获取code参考另一篇文章:https://blog.csdn.net/ettamei/article/details/148763361?spm1011.2415.3001.5331 B.前端sdk提供:code只有5分钟的有…

达梦数据库windows静默安装

<DATABASE> <!-- 安装数据库的语言配置&#xff0c;简体中文版: ZH&#xff0c;繁体中文版: CHT&#xff0c;英文版: EN&#xff0c;不区分大小写。不允许为空 --> <LANGUAGE>ZH</LANGUAGE> <!-- 安装程序的时区配置&#xff0c;缺省为08:00&#…

20250709荣品RD-RK3588开发板的Android13系统下修改为连续长按10s开机

20250709荣品RD-RK3588开发板的Android13系统下修改为连续长按10s开机 2025/7/9 10:11缘起&#xff1a;由于荣品RD-RK3588开发板使用的PMIC是RK806。 以前在荣品PRO-RK3566开发板上使用的PMIC是RK809上做过了长按开机的。 直接迁移过来了&#xff01;1、根据RK809的DATASHEET&a…

20250713-`Seaborn.pairplot` 的使用注意事项

Seaborn.pairplot 的使用注意事项 sns.pairplot 是 Seaborn 中最常用、最强大的探索性数据分析&#xff08;EDA&#xff09;函数之一。 它在一个调用里就能同时展示&#xff1a; 任意两两变量间的 散点图&#xff08;观察关系、聚类、异常值&#xff09;对角线上每个变量的 单…

如何选择合适的AI论文写作工具?七个AI英文论文写作网站

在写作英文论文时&#xff0c;许多人往往会遇到写作思路卡壳、语言不流畅、重复率过高等问题。幸运的是&#xff0c;AI论文写作工具的出现&#xff0c;极大地提升了写作效率和质量。这些工具不仅可以帮你快速生成内容、扩展论点&#xff0c;还可以优化语言&#xff0c;帮助你顺…

【保姆级喂饭教程】idea中安装Conventional Commit插件

目录前言一、安装二、测试前言 之前了解到了Conventional Commit规范&#xff0c;idea中好像没什么钩子工具&#xff0c;测试一下Conventional Commit插件吧 一、安装 点击file-settings 点击plugins插件&#xff0c;搜索Conventional Commit&#xff0c;点击install安装&…

# 电脑每次重启都自动启动惠普安装程序,怎么取消?

电脑每次重启都自动启动惠普安装程序&#xff0c;怎么取消&#xff1f; 一、通过任务管理器禁用&#xff1a; 1&#xff09;右键点击任务栏上的空白区域&#xff0c;选择 “任务管理器”。 2&#xff09;在任务管理器窗口中&#xff0c;点击顶部菜单栏上的 “启动” 选项卡。 3…

QT遇到过的样式记录

此帖主要记录平常工程里遇到的qt样式 窗口无边框 原始文档 void QWidget::setWindowFlag(Qt::WindowType flag, bool on true) Sets the window flag flag on this widget if on is true; otherwise clears the flag. This function was introduced in Qt 5.9. See also se…

软件设计师中级概念题

软件过程模型 1. 瀑布模型&#xff1a; 五个阶段&#xff1a;需求分析、设计、编码、测试、运行与维护。 为软件的开发和维护提供了一种有效的管理模式&#xff0c;它是以文档作为驱动、合适于软件需求很明确的软件项目模型。瀑布模型假设&#xff0c;一个待开发的系统需求是完…

Elasticsearch安装、入门、基础API操作、全文检索、精准查询、地理查询、复合查询、排序、分页、高亮、数据聚合、自动补全、数据同步、ES集群

学习资料&#xff1a; 通过网盘分享的文件&#xff1a;Elasticsearch 链接: https://pan.baidu.com/s/18BxA0BH0G–jwy95uFmFZQ 提取码: yyds 初识ES正向索引倒排索引ES与MySQL 概念对比安装ES操作索引库mapping属性创建索引库{"mappings": {"properties":…

教程:如何查看浏览器扩展程序的源码

在学习前端、自动化或扩展开发时&#xff0c;我们常常会想研究某个浏览器插件的实现逻辑。即使扩展没有公开源码&#xff0c;只要我们本地安装了它&#xff0c;就可以查看它的完整源代码进行学习。✅ 方法一&#xff1a;从浏览器插件目录提取源码 第一步&#xff1a;打开扩展程…

虚拟储能与分布式光伏协同优化:新型电力系统的灵活性解决方案

安科瑞顾强摘要&#xff1a; 在全球能源结构向低碳化、智能化加速转型的背景下&#xff0c;分布式光伏的大规模接入为电力系统带来机遇的同时&#xff0c;也因其波动性与间歇性带来了运行挑战。本文聚焦于虚拟储能系统&#xff08;Virtual Energy Storage System, VESS&#xf…

java valueOf方法

一,什么是valueOf方法?valueOf是java包装类(比如Long,Integer等)中提供的一个静态方法二,valueOf的主要作用是什么主要作用是将其他类型的数据转换为当前包装类的对象三,代码实例:咱们以Long.valueOf为例,1,他可以接受一个long类型的数值,返回对应的Long对象(把基本类型long包…

工业平板电脑 vs 消费级平板:从防护等级到使用寿命全方面对比

平板电脑已经广泛应用于各个行业。但你知道吗&#xff1f;市面上常见的“平板”其实可以分为两大类&#xff1a;工业平板电脑和消费级平板电脑。虽然它们看起来都是“平板”&#xff0c;但用途、性能和适用场景却大不相同。今天&#xff0c;我们就来聊聊这两者的区别&#xff0…

MySQL技术笔记-索引+慢 SQL+锁 全链路优化实战

目录 前言 MySQL索引 一、概述 二、索引分类 &#xff08;一&#xff09;按功能特性分类 &#xff08;二&#xff09;按存储方式分类 &#xff08;三&#xff09;按数据结构分类 &#xff08;四&#xff09;按索引字段数量分类 三、索引的优缺点 &#xff08;一&…

S7-1200 与 S7-300 PNS7-400 PN UDP 通信 TIA 相同项目

7-1200 与 S7-300 PN/S7-400 PN UDP 通信 TIA 相同项目S7-1200 与 S7-300 PN 口之间的以太网通信可以通过 UDP 协议来实现&#xff0c;使用的通信指令是在双方 CPU 调用通信-开放式用户通信TSEND_C&#xff0c;TRCV_C&#xff08;1200支持&#xff0c;300不支持&#xff09;或T…

java进阶(二)+学习笔记

面向对象设计原则1. 面向对象概念面向对象 是一种编程思想&#xff0c;面向过程是关注实现的步骤&#xff0c;每个步骤定义一个函数&#xff0c;调用函数执行即可。面向对象关注的是谁(对象)来执行&#xff0c; 把具有相同属性和行为的一类事物(对象)进行抽象成类&#…

[附源码+数据库+毕业论]基于Spring Boot+mysql+vue结合内容推荐算法的学生咨询系统

摘要 随着互联网的普及&#xff0c;学生在学习和生活中面临着海量信息&#xff0c;如何高效获取有价值的内容成为亟待解决的问题。本文基于 Spring Boot 框架&#xff0c;结合内容推荐算法&#xff0c;设计并实现了一个学生咨询系统。系统采用 Spring Boot MyBatis MySQL Vu…

DeepSeek 微调实践:DeepSeek-R1 大模型基于 MS-Swift 框架部署 / 推理 / 微调实践大全

注&#xff1a;此文章内容均节选自充电了么创始人&#xff0c;CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》&#xff08;跟我一起学人工智能&#xff09;【陈敬雷编著】【清华大学出版社】 GPT多模态大模型与AI Agent智能体书籍本章配套视频课程【陈敬雷】 文…

python基础知识pip配置pip.conf文件

pip.conf一、 INI格式二、 级别三、 文件位置四、 加载顺序五、 常用一、 INI格式 配置文件可以更改pip命令行选项的默认值&#xff0c;这个文件是使用INI格式编写的。 INI格式 主要包含三个内容&#xff1a;1.节section 2.键值对 3.注释 [section1] key1 value1 \\注释 key2…