Text Compression for Efficient Language Generation

[2503.11426] Text Compression for Efficient Language Generation

NAACL 2025

提出了“Generative Pretrained Thoughtformer”(GPTHF),这是一个分层 transformer 语言模型,它能够通过将文本压缩成句子嵌入并采用句子注意力机制来进行文本生成(将句子压缩成一个固定大小的嵌入并采用句子级注意力来生成文本,对GPT的修改很小)。 GPTHF 保留了 GPT 的架构,仅通过动态稀疏注意力掩码修改 token 交互。

这项工作没有压缩固定大小的 token 组,而是将一个句子——语言中具有更高语义价值的单元——压缩成一个嵌入。作者专注于利用这些嵌入来提高计算效率,而不是嵌入本身。

方法

架构

GPTHF 模型由两个主要组件组成:一个词级 Transformer 编码器 (wlt_encoder) 和一个句子级 Transformer 主体 (slt_body)。 编码器将每个句子压缩成一个单独的嵌入,同时保留基本信息。 slt_body 对这些句子嵌入进行上下文处理并生成下一个 token 预测。

预训练

使用自动回归模型中常见的下一个 Token 预测目标。 为了在启用有效的并行训练的同时,为 Token 预测准备GPTHF,再次采用专门的注意性掩码(图4)。 目标是序列中的下一个 Token (图3) 

训练语料库包含了 OpenWebText、维基百科和 ArXiv。使用标准的GPT-2 Token ,继承了其词汇大小和未知单词的处理,同时引入了“EOS” Token 。 这个 Token 对于快速生成方法的设计至关重要,这是这项工作的基石。

使用 Adam 优化器,权重衰减为 0.01,β1=0.9,β2=0.98 和 ϵ=10−8.

保持梯度裁剪,值为 0.5。

学习率调度器使用线性衰减并进行 10000 步的预热

批次大小调度器,起始批次大小为 64,并线性增加到 4096,在训练持续时间的 60% 时达到峰值。 

在训练期间消除了 dropout。

模型在预训练语料库上只进行一次或更少的传递,这降低了过拟合的风险。

快速生成

【感觉上是一句话有对应的emb,常规的生成token并不会影响先前已有句子的emb,因此在更新emb的时候效率得到了提高】

实验

使用验证困惑度和效率指标(FLOPs 和运行时)评估 GPTHF 与大小相当的 GPT 风格基线。

训练数据限制为 100 亿个 token,分为 320’000 个大小为 64 的微批次步骤,上下文大小为 512 个 token。 所有模型都在相同的数据集上进行预训练。

基线:训练了一个名为“Baseline-12”的 12 层基线和一个名为“Baseline-24”的 24 层基线,它们与 GPTHF 对应物具有相同的架构和大小。 唯一的区别是与图4中的掩码相反,它们使用用于编码器和主体的完整三角掩码进行训练。

困惑度

GPTHF-16-8 和 12 层基线模型的表现相当,为进一步比较奠定了基础:如果 GPTHF-16-8 实现了比 12 层 GPT 更高的生成效率和/或速度,那么训练一个能够压缩的更大模型可能是值得的。

FLOPs

快速生成算法的加速度取决于跨句子的 Token 分布,而不是仅输入的形状。 直观地说,更多句子通过缓存已完成的句子来跳过编码器。

 效率增益随着提示长度的增加而增加。

 平均句子数(x 轴)与效率提升(y 轴)的散点图。效率提升与平均句子数线性相关。对于批处理数据,效率提升较低,这可能是由于 token 的多样性较大(从增加的方差可以看出),导致处理了更多的 padding token,从而减慢了快速生成算法的速度。

推理时间

随着上下文增加,加速比也会增加。

综合来看,核心贡献是以句子为基准进行划分,只修改最后一句话在添加新的生成token后的emb,前面句子的emb不做变化。也对encoder的作用区域进行了精简。

对我来说用处不大,简单了解即可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88789.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88789.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88789.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SwiftUI 7 新 WebView:金蛇出洞,网页江湖换新天

概述 崇祯年间,华山派武学虽盛,却在应对江湖新局时渐显颓势;如今 SwiftUI 江湖亦是如此 ——WWDC 25 之前,若要在 SwiftUI 中显示网页,开发者恰似袁承志初闯江湖,纵有一身本领,却苦无称手兵刃。…

LeetCode|Day9|976. 三角形的最大周长|Python刷题笔记

LeetCode|Day9|976. 三角形的最大周长|Python刷题笔记 🗓️ 本文属于【LeetCode 简单题百日计划】系列 👉 点击查看系列总目录 >> 📌 题目简介 题号:976. 三角形的最大周长 难度&#x…

华擎B150M Pro4S魔改bios上8代U

100、200系主板魔改bios在DIY领域当属于历史性事件,2018年左右兴起。虽然现在已经是2025年,魔改bios已经没有多大意义,但是跟着前辈的教程魔改一次,可以重温下当年DIY玩家的激情。 魔改教程在SMXDIY网站,写的非常详细&…

音视频学习(三十七):pts和dts

概念 PTS(Presentation Time Stamp)显示时间戳 表示:该帧应该在什么时间被显示/播放。主要用于:同步音频与视频,控制播放节奏。举例:视频帧 A 的 PTS 是 300ms,表示应在视频播放第 300 毫秒时显…

关于数据库的慢查询

1.数据库的慢查询慢查询是指执行时间超过预设阈值的数据库查询操作。它是数据库性能优化的一个重要指标和切入点。慢查询的主要特点执行时间长:超过了数据库系统设定的慢查询阈值(如MySQL默认是10秒)资源消耗大:可能占用大量CPU、…

【Rust日报】 Python 核心开发者对 Rust 的期望

半月刊:The Embedded Rustacean Issue #49亮点:📢 乐鑫 DevCon 2025 演讲嘉宾征集🦺 CISA 和 NSA 参与内存安全对话🔐 微软宣布 RIFT (Rust 恶意软件分析工具)💰️ Nordic 收购 Memf…

vue是什么

Vue简介Vue(Vue.js)是一个用于构建用户界面的渐进式JavaScript框架。它专注于视图层,易于集成到现有项目中,也可用于开发复杂的单页面应用(SPA)。Vue的核心特点是轻量、灵活和高效,通过数据绑定…

10分钟掌握 Nginx 配置文件结构

在实际部署前端或后端项目时,Nginx 配置文件(nginx.conf) 是我们无法绕开的第一道门槛。 本文将带你用10分钟掌握 nginx.conf 的核心结构与常见配置方法,并提供一篇完整的实战文档链接,适合初学者快速掌握。 &#x1…

典型的前后端交互数据示例

提供几种典型的前后端交互数据示例: 前端如何组织数据,以及后端如何接收数据。 文章目录1. POST请求后端实体类接收前端js后端接收结果查看2. GET请求后端实体类接收前端js后端接收结果查看3. GET请求后端基本类型接收前端js后端接收结果查看1. POST请求…

计算机毕业设计springboot影视周边推荐系统 基于SpringBoot的电影衍生品智能推荐平台 JavaWeb实现的影视文化周边个性化服务系统

计算机毕业设计springboot影视周边推荐系统6c31q9 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。疫情之后,线上娱乐需求激增,人们对电影及其衍生商品的关…

(4)机器学习小白入门YOLOv :图片标注实操手册

(1)机器学习小白入门YOLOv :从概念到实践 (2)机器学习小白入门 YOLOv:从模块优化到工程部署 (3)机器学习小白入门 YOLOv: 解锁图片分类新技能 (4)机器学习小白入门YOLOv :图片标注实操手册 (5)机器学习小白入门 YOLOv:…

【JMeter】调试方法

文章目录取样器:发送请求、接收响应>>察看结果树断言:验证响应>>察看结果树提取器:创建变量>>调试取样器自定义断言:代码>>日志了解JMeter的内部细节,排查错误的原因。取样器:发送…

Vue框架之钩子函数详解

Vue框架之生命周期主要钩子函数详解一、Vue生命周期的整体流程二、创建阶段:初始化组件实例2.1 beforeCreate:实例创建前2.2 created:实例创建后三、挂载阶段:组件与DOM结合3.1 beforeMount:挂载前3.2 mounted&#xf…

Syntax Error: TypeError: Cannot set properties of undefined (setting ‘parent‘)

Date: 2025-07-12 19:21:24 author: lijianzhan使用npm run dev运行前端项目时报错,具体报错信息如下: ERROR Failed to compile with 1 error …

JAVA后端开发——类命名规范

引言良好的命名规范是软件工程的基石。它不仅能提升代码的可读性,还能降低团队协作的沟通成本,使项目在长期迭代中更易于维护。本规范结合了业界主流实践(如阿里巴巴Java开发手册)以及现代Web应用分层架构的特点,旨在提…

Ubuntu2404修改国内镜像

文章目录1 备份原文件2 修改文件内容Ubuntu2404修改国内镜像 2404和2204修改镜像的方式不一致 且镜像保存的位置也不一致,位置在/etc/apt/source.list.d/ubuntu.sources 参考:https://blog.csdn.net/Kiffy_Yam/article/details/145876447 1 备份原文件…

Chrome拓展 Video Speed Controller 等内嵌恶意后门

【高危】Chrome拓展 Video Speed Controller 等内嵌恶意后门 漏洞描述 当用户安装受影响版本的 Video Speed Controller 等Chrome拓展会窃取用户的浏览链接,并与攻击者可控的C2地址建立持久化连接,攻击者可将用户浏览器重定向到恶意网站。 MPS编号MPS…

Spring Ai Alibaba Gateway 实现存量应用转 MCP 工具

作者简介:你好,我是影子,Spring Ai Alibaba开源社区 Committer,持续分享Spring Ai Alibaba最新进展 业界各类AI工程相关的方案 最近有断时间没更了,熟悉我的朋友知道我刚结束完毕业旅行,最近也因为入职&a…

HTTP和HTTPS部分知识点

HTTP基本概念 超文本-传输-协议 协议 HTTP是一个用在计算机世界里的协议。它使用计算机可以理解的语言确立了一种计算机之间交流通信的规范(两个以上的参与者),以及相关的各种控制和错误处理方式(行为约定和规范)。传输 HTTP协议是一个双向协议。是一个在计算机世界…

第10讲——一元函数积分学的几何应用

文章目录定积分计算平面图形的面积直角坐标系下参数方程下极坐标系下定积分计算旋转体的体积曲边梯形绕x轴旋转一周所得到的旋转体的体积曲边梯形绕y轴旋转一周所得到的旋转体的体积平面曲线绕定直线旋转定积分计算函数的平均值定积分计算平面光滑曲线的弧长曲线L绕x轴旋转一周…