背景

“GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。”

定义与关系

  • 总参数量:模型中所有可训练参数的总和(包括嵌入层、注意力层、前馈网络等),反映模型的理论容量
  • 活跃参数:在单次前向传播中实际参与计算的参数子集。例如:
    • 稀疏激活模型(如MoE):每次只激活部分专家网络(如Switch Transformer每次激活1/8的专家)。
    • 动态参数共享(如LoRA、AdaLoRA):通过低秩分解或掩码动态选择参数。
    • 条件计算(如专家选择、路由机制):根据输入动态决定激活哪些路径。

关系
活跃参数 ≤ 总参数量(通常远小于)。例如,Switch Transformer总参数量1.6T,但单次计算仅激活约50B参数(活跃参数占比~3%)。

作用与意义

(1)效率提升
  • 计算成本:活跃参数直接决定FLOPs和内存占用。稀疏激活(如MoE)允许在总参数量极大时,仍保持低计算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
  • 存储优化:通过参数共享(如LoRA)或量化,减少实际存储需求(例如Meta的LLaMA-65B通过4-bit量化压缩至33GB)。
(2)性能与容量的权衡
  • 总参数量:提供潜在容量(如知识存储),但需通过稀疏激活或动态路由有效利用。例如:
    • MoE模型:总参数量大(如GLaM 1.2T),但活跃参数少(96B),在多项任务上超越GPT-3(175B全激活)。
    • 过拟合风险:总参数量过大但活跃参数不足时,可能因参数利用率低导致欠拟合。
(3)训练与推理的差异化设计
  • 训练阶段:总参数量影响梯度更新范围,但可通过梯度稀疏化(如ZeRO-3、DeepSpeed)减少实际通信量。
  • 推理阶段:通过动态剪枝(如Block-Sparse Attention)或专家卸载(如MoE的路由缓存),进一步降低活跃参数。

总参数量是模型的“潜在智慧”,而活跃参数是其“实际执行力”。二者的分离设计(如稀疏化、动态路由)是大模型突破规模限制的核心技术,使得“用更少的计算,实现更强的性能”成为可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94216.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94216.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/94216.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[创业之路-535]:软件需要原型验证、产品需要原型验证、商业模式也需要原型验证

原型验证在软件、产品开发以及商业模式探索中均扮演着至关重要的角色,它通过低成本、快速迭代的方式,帮助团队验证核心假设、降低风险并优化方案。以下是针对这三个领域的具体分析:一、软件原型验证:从概念到可交互的模型核心目的…

sublime text2配置

sublime text2配置背景配置其他背景 之前下载了就把它当记事本在使用。但是,在使用过程中,有些场景很痛苦。如果说找一个字符串中的某一部分,虽然它通过了这个功能,但是不够明显,看瞎了。。。 配置 下面是我改的一些选…

本地通信的选择:为什么组播比广播更适合多进程协作?

零、深入解析Linux本地通信机制,对比广播与组播的核心差异 本地组播能让多进程收到消息,而本地广播不行,核心原因在于两者的设计目标、网络协议处理逻辑以及内核转发机制存在本质差异。具体可以从以下几个角度理解: 1. 通信模式与目标地址的本质区别 组播(Multicast):…

7-Django项目实战[user]-发送邮件激活账号

1.前期准备(以QQ邮箱为例) 登录QQ邮箱 获取授权码 2.settings.py文件配置 1)缓存配置 # 配置缓存 CACHES {# 邮件激活随机数"default": {"BACKEND": "django_redis.cache.RedisCache","LOCATION&q…

社群团购市场选择与开源技术赋能下的下沉市场开拓策略研究——以开源AI智能名片、链动2+1模式与S2B2C商城小程序为例

摘要:在社群团购行业面临流量成本攀升与同质化竞争的背景下,下沉市场因其庞大用户基数与未被充分满足的消费需求,成为创业者突破增长瓶颈的关键赛道。本文以拼多多成功开拓小城镇与农村市场的案例为切入点,结合开源AI智能名片、链…

Ollama前端:open-webui

github:https://github.com/open-webui/open-webui 官网:🏡 Home | Open WebUI 1、docker安装(GPU): docker run -d -p 3000:8080 --gpusall -v ollama:/root/.ollama -v open-webui:/app/backend/data …

LeetCode513:找树最左下角的值(bfs+dfs)

文章目录一、 题目描述解法一:层序遍历 (BFS) - 最直观的解法核心思路代码实现优缺点分析解法二:递归 (DFS) - 更深度的思考核心思路代码实现优缺点分析四、 总结与对比LeetCode 513 - 寻找树的最后一行的最左侧的值,【难度:中等&…

把“评论”菜单从WordPress后台移除的3种方法

在WordPress后台移除“评论”菜单,可以通过以下几种方法实现。以下是详细步骤: 方法1:通过代码移除(推荐) 将以下代码添加到主题的functions.php文件中(或使用CodeSnippets插件): // 移除后台左侧菜单的“评论” add_action(ad…

大语言模型 LLM 通过 Excel 知识库 增强日志分析,根因分析能力的技术方案(4):只要过一遍LLM的简约版本

文章大纲 只要过一遍LLM的简约版本 1 设计原理(一句话) 2 极简数据流 3 最小依赖实现(本地 SQLite + OpenAI 兼容端点) 3.1 一次性准备:Excel → SQLite 3.2 关键词提取 + 查表(正则 / SQL) 3.3 单次 LLM 调用 4 运行结果示例 5 性能 & Token 对比 6 可扩展点 7 参考…

(转)mybatis和hibernate的 缓存区别?

MyBatis 和 Hibernate 都是流行的 Java 持久化框架,它们都提供了自己的缓存机制来优化数据库操作,减少数据库的访问次数,提高应用程序的性能。尽管两者都支持缓存,但是它们的缓存实现方式和配置有所不同。1. 缓存机制的基本区别My…

【linux内核系列】:万字详解进程间通信:消息队列

🔥 本文专栏:Linux 🌸作者主页:努力努力再努力wz 💪 今日博客励志语录: 你讨厌的现在,是未来的你拼命想回去修正的战场。 ★★★ 本文前置知识: 匿名管道 命名管道 共享内存 前…

React 19 革命性升级:编译器自动优化,告别手动性能调优时代

概述 React 19 是 React 框架的一个重要里程碑版本,带来了众多突破性的改进和新特性。本文档将详细介绍 React 19 的主要变化,帮助开发者了解并迁移到新版本。 🚀 主要新特性 React Compiler (编译器) React 19 引入了全新的 React Compi…

UE5的渲染Debug技巧

ShaderPrint UE5相对UE4使用的ComputeShader(GPU Driven)的地方多很多。因为UE5为了方便查看ComputeShader的某些值,开发了“ShaderPrint”,方便直接在Shader 打印信息到屏幕,而不用采用CPUReadback在print的方式。 比如r.nanite.ShowStats…

【2025/08/03】GitHub 今日热门项目

GitHub 今日热门项目 🚀 每日精选优质开源项目 | 发现优质开源项目,跟上技术发展趋势 📋 报告概览 📊 统计项📈 数值📝 说明📅 报告日期2025-08-03 (周日)GitHub Trending 每日快照&#x1f55…

Android系统模块编译调试与Ninja使用指南

模块编译调试方法 (此处举例framework、installd、SystemUI等模块的编译调试,其他类似) 1. Framework模块编译 Android系统代码的framework目录内,一共有3个模块单独编译:framework、services、framework-res.apk。 注意:偶尔会有…

【硬件-笔试面试题】硬件/电子工程师,笔试面试题-51,(知识点:stm32,GPIO基础知识)

目录 1、题目 2、解答 3、相关知识点 一、GPIO 基本结构与特性 1. GPIO 硬件结构 2. 主要特性 二、GPIO 工作模式 1. 输入模式 2. 输出模式 3. 复用功能模式 4. 特殊模式 三、GPIO 配置步骤(以 STM32Cube HAL 库为例) 1. 初始化 GPIO 时钟 …

小智服务器Java安装编译(xinnan-tech)版

github:https://github.com/xinnan-tech/xiaozhi-esp32-server 一、JDK 1、JDK21下载: https://www.oracle.com/cn/java/technologies/downloads/#jdk21-windows RPM安装: rpm -ivh jdk-21_linux-x64_bin.rpm 2、IDEA设置JDK File → P…

智能平台的感知进化:AI × 视频通感在群体终端协同中的应用探索

✳️ 引言:从单兵到集群,未来智能平台的协同演进 从传统的单兵执行任务到如今的“群体智能平台编组”,现代感知系统正经历一场由 AI、机器人与智能计算平台驱动的深度变革。过去,履带式无人平台在平坦地形中承担支援任务&#xf…

基于定制开发开源AI智能名片S2B2C商城小程序的B站私域流量引流策略研究

摘要:随着移动互联网进入存量竞争阶段,私域流量运营成为企业数字化转型的核心战略。B站作为中国最大的Z世代文化社区,其3.41亿月活跃用户中Z世代占比达58%,且25岁以上用户增速显著,用户日均使用时长超108分钟&#xff…

Spring+K8s+AI实战:3全栈开发指南

Spring、K8s、人工智能、Docker及Windows实例 以下是与Spring、K8s、人工智能、Docker及Windows实例相关的实用示例,涵盖开发、部署和集成场景: Spring Boot微服务开发 示例1:REST API构建 使用Spring Boot创建带Swagger文档的RESTful服务,集成JPA和Hibernate进行数据库…