BART模型

BART(Bidirectional and Auto-Regressive Transformers)是由 Facebook AI Research(FAIR)在 2019 年提出的序列到序列(seq2seq)预训练模型,论文发表于《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》。

它结合了 BERT 的双向编码器 和 GPT 的自回归解码器,专为文本生成任务(如摘要、翻译、对话)设计,同时在理解任务(如分类、问答)上也表现优异。

BART 通过灵活的预训练任务和统一的编解码架构,成为生成与理解任务的通用基础模型,尤其适合需要同时处理输入理解和输出生成的场景。

核心特点

架构:标准 Transformer 编解码器

  • 编码器:双向 Transformer(类似 BERT),理解上下文。

  • 解码器:自回归 Transformer(类似 GPT),从左到右生成文本。

  • 参数规模:从 BART-Base(140M)到 BART-Large(400M)。

预训练任务:文本破坏与还原(Denoising Autoencoder) 通过多种噪声破坏输入文本,再让模型还原原始文本,提升生成与理解能力:

  • Token Masking(类似 BERT):随机遮盖词(如 [MASK])。

  • Token Deletion:随机删除词,需还原位置和内容。

  • Text Infilling:用单个 [MASK] 替换连续片段(如 SpanBERT),需生成缺失片段。

  • Sentence Permutation:打乱句子顺序,需重排。

  • Document Rotation:随机选择词作为开头,需还原原文起始点。

微调灵活性:可直接用于下游任务:

  • 生成任务:摘要(CNN/DailyMail)、对话、翻译(需多语言预训练)。

  • 理解任务:文本分类、问答(将输入编码,解码为答案)。

推理示例代码:

from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipelineclass ChineseBart:def __init__(self):model_path = "/path/to/bart-base-chinese"self.load_model(model_path)def load_model(self, model_path):# 加载一个中文BART模型(假设已经有微调好的改写模型权重)self.tokenizer = BertTokenizer.from_pretrained(model_path)self.model = BartForConditionalGeneration.from_pretrained(model_path)self.text2text_generator = Text2TextGenerationPipeline(self.model, self.tokenizer, device=0)  def rewrite_text(self, text):# text = "机器学习模型在图像识别领域取得了突破性的进展。"# 构造输入(BART可以直接输入文本)ret = self.text2text_generator(text, max_length=512, do_sample=False)if len(ret) > 0:rewritten_texts = []for obj in ret:ret_text = obj.get('generated_text').replace(" ", "")rewritten_texts.append(ret_text)rewritten_text = "\n\n".join(rewritten_texts)print("改写结果:", rewritten_text)return rewritten_textreturn text

T5模型

T5(Text-to-Text Transfer Transformer)是 Google Research 在 2019 年提出的统一文本到文本框架,论文发表于《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》。它将所有 NLP 任务(翻译、摘要、问答、分类等)统一为“文本输入 → 文本输出”的范式,通过大规模预训练 + 微调实现通用能力。

核心特点

统一框架:所有任务都是 Text-to-Text

  • 输入和输出均为纯文本,无需任务特定架构。
  • 任务前缀:通过在输入前加提示词区分任务,例如:

translate English to German: ...

summarize: ...

cola sentence: ...(分类任务输出acceptableunacceptable)。

架构:标准 Encoder-Decoder Transformer

  • 完全基于原始 Transformer(Vaswani et al., 2017),未做架构创新。
  • 规模:从 T5-Small(60M)到 T5-11B(110亿参数,最大版本)。

预训练任务:Span Corruption(改进的 MLM)

  • 类似 BERT 的掩码语言模型(MLM),但连续片段(span)被掩码(平均长度3),需解码器还原。
  • 预训练数据:C4(Colossal Clean Crawled Corpus),750GB cleaned English text。

微调灵活性

  • 单任务微调:针对特定任务(如翻译)微调。
  • 多任务微调:混合多个任务前缀联合训练(如翻译+摘要+QA)。
  • 零样本/少样本:通过任务前缀泛化到新任务(如未微调的数学题)。

推理示例代码:

from transformers import T5Tokenizer, T5ForConditionalGenerationclass ChineseT5:def __init__(self):print("ChineseT5")model_path = "/path/to/flan-t5-base"self.load_model(model_path)def load_model(self, model_name):# 加载一个中文T5模型(假设已经有微调好的改写模型权重)self.tokenizer = T5Tokenizer.from_pretrained(model_name, legacy=False)self.model = T5ForConditionalGeneration.from_pretrained(model_name)def rewrite_text(self, input_text):# 构造输入(添加适当的前缀)input_text = "rewrite: " + input_textinput_ids = self.tokenizer(input_text, return_tensors="pt").input_idsoutputs = self.model.generate(input_ids)if len(outputs) > 0:rewritten_text = self.tokenizer.decode(outputs[0])print("改写结果:", rewritten_text)return rewritten_textreturn input_text

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/93866.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/93866.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/93866.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电商前端Nginx访问日志收集分析实战

使用FileBeatLogstashES实现分布式日志收集 在大型项目中 ,往往服务都是分布在非常多不同的机器上 ,每个机器都会打印自己的log日志 但是 ,这样分散的日志 ,本来就无法进行整体分析。再加上微服务的负载均衡体系 ,甚至…

TwinCAT3示例项目1

目录一、需求分析二、程序编写1.实现1盏灯的自控(IF、TOF)2. 添加模式控制(Case、枚举)3. 添加多盏灯(FOR、数组)4. 添加多组灯(二维数组)END项目结合了,FB,I…

如何在 VMware Workstation 虚拟机中利用 Nvidia 显卡的硬件加速功能

这篇文章详细介绍了如何在 VMware Workstation 虚拟机中利用 Nvidia 显卡的硬件加速功能,通过 PCI 设备直通(Pass-Through)技术将显卡分配给虚拟机使用: 在 VMware Workstation 虚拟机中利用 Nvidia 显卡的硬件加速功能 1. 检查…

设计模式(二十二)行为型:策略模式详解

设计模式(二十二)行为型:策略模式详解策略模式(Strategy Pattern)是 GoF 23 种设计模式中最具实用性和广泛影响力的行为型模式之一,其核心价值在于定义一系列算法或行为,并将每个算法封装到独立…

AI+向量化

要理解 Java 如何结合 AI 与向量化,我们需要从向量化的核心概念、AI 中向量化的作用、Java 生态中的实现工具以及具体实践案例四个维度展开。以下是详细解析:一、核心概念:向量化与 AI 的关系向量化(Vectorization)是将…

Bootstap Vue 之b-form-radio-group 不显示选中状态问题

代码类似&#xff1a;<b-form-radio-groupclass"mt-2"required:disabled"dfrmDisabled"v-model"childDikeForm.SafetyAppraisalRank":options"[一, 二, 三, 四]"name"rankradioopt"></b-form-radio-group>经过测…

Shell 脚本实战:基于 for 循环的批量操作三例(账户创建、网络检测与密码管理)

一、编写脚本for1.sh,使用for循环创建20账户&#xff0c;账户名前缀由用户从键盘输入&#xff0c;账户初始密码由用户输入&#xff0c;例如:test1、test2、test3、......、test10实现思路通过read命令获取用户输入的账户前缀和初始密码&#xff1b;加入非空校验&#xff1a;若前…

PBR技术

一 、PBR的概述1.定义策略路由&#xff1a; PBR 是一种覆盖路由器默认路由决策机制的技术。它允许管理员根据策略&#xff08;而不仅仅是目标地址&#xff09;来设置数据包的下一跳 IP 地址、出站接口、IP 优先级/DSCP 值等。路由策略&#xff1a;是指在路由器或三层设备上&…

STM32-ESP8266Wi-Fi模块使用USART实现通信/创建AP和STA模式配置教程(寄存器版)

本章思维导图&#xff1a;ESP8266WIFI模块简介ESP8266 是一款由乐鑫科技推出的低成本、高性能 Wi-Fi 模块&#xff0c;广泛应用于物联网和嵌入式开发领域。WIFI的频段5G和2.4G2.4G Wi-Fi与5G Wi-Fi最本质的区别即工作频段&#xff08;无线电波的频率&#xff09;不一样&#xf…

算法26. 删除有序数组中的重复项

给你一个 非严格递增排列 的数组 nums &#xff0c;请你 原地 删除重复出现的元素&#xff0c;使每个元素 只出现一次 &#xff0c;返回删除后数组的新长度。元素的 相对顺序 应该保持 一致 。然后返回 nums 中唯一元素的个数。 考虑 nums 的唯一元素的数量为 k &#xff0c;你…

ROS2中传输样条曲线

在ROS2中传输样条曲线需要解决两个核心问题&#xff1a;**如何结构化表示曲线数据**和**如何高效传输**。以下是一套完整方案&#xff0c;结合自定义消息设计、序列化优化和QoS配置实现可靠传输&#xff1a;---### &#x1f4d0; 一、定义样条曲线的自定义消息 样条曲线通常由控…

Win11怎样安装DirectX 9

通过微软官方下载安装&#xff1a;确认系统兼容性并准备&#xff1a;确保显卡驱动为最新版本&#xff0c;因为 DirectX 与显卡驱动程序紧密相关。同时&#xff0c;可暂时关闭防病毒软件和防火墙&#xff0c;防止其干扰安装过程。下载安装程序&#xff1a;访问微软官方网站下载 …

RAGFLOW~Enable RAPTOR

Enable RAPTOR 一种递归抽象方法&#xff0c;用于长上下文知识检索和摘要&#xff0c;在广泛语义理解和细微细节之间取得平衡。 RAPTOR&#xff08;递归抽象处理用于树状组织检索&#xff09;是一种在2024年论文中引入的增强文档预处理技术。它旨在解决多跳问答问题&#xff0c…

【机器人+相机通讯】宇树科技相机通信

https://github.com/unitreerobotics/xr_teleoperate/blob/main/README_zh-CN.md 相机驱动与服务端 https://github.com/unitreerobotics/xr_teleoperate/blob/main/teleop/image_server/image_server.py 其中相机如果是realsense, 安装好驱动后&#xff0c;可以使用命令查看…

机械学习中的一些优化算法(以逻辑回归实现案例来讲解)

一、混淆矩阵混淆矩阵是机器学习中评估分类模型性能的重要工具&#xff0c;尤其适用于二分类或多分类任务。它通过展示模型预测结果与实际标签的匹配情况&#xff0c;帮助理解模型的错误类型&#xff08;如假阳性、假阴性等&#xff09;。以下通过二分类场景为例&#xff0c;结…

龙蜥受邀参加2025开放计算技术大会,解码基础模型驱动下的系统创新与生态共建

开放计算技术大会由全球最大的开放计算社区 OCP 发起&#xff0c;是开放计算领域生态覆盖最广且最具影响力的亚洲年度技术盛会。本届大会由 OCP 与 OCTC&#xff08;中国电子工业标准化技术协会开放计算标准工作委员会&#xff09;两大开放组织联合主办&#xff0c;将于 8 月 7…

第三阶段—8天Python从入门到精通【itheima】-140节(pysqark实战——基础准备)

目录 140节——pysqark实战——基础准备 1.学习目标 2.pysqark库的安装 3.pyspark的路径安装问题 一、为什么不需要指定路径&#xff1f; 二、如何找到 pyspark 的具体安装路径&#xff1f; 三、验证一下&#xff1a;直接定位 pyspark 的安装路径 四、总结&#xff1a;记…

数据库中使用SQL作分组处理01(简单分组)

1.简单分组GroupBy什么就Select什么SELECT Name,Score From StudentScore GROUP BY Name,Score2.聚合函数(MAX SUM AVG COUNT)&#xff08;1&#xff09;计算1.表的全部字段都可以用聚合函数&#xff0c;但是筛选聚合函数的结果要用Having关键字2.聚合函数默认排除Null值IDName…

Linux基本服务——web服务解析

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 目录 Web服务解析 虚拟Web主机 Web目录访问控制 Web服务解析 用途&#xff1a;基于 B/S 架构提供网页的服务端程序 应用层协议&#xff1a;HTTP&#xff08;TCP 80…

深入理解缓存淘汰策略:LRU vs LFU 完全解析

深入理解缓存淘汰策略&#xff1a;LRU vs LFU 完全解析 文章目录深入理解缓存淘汰策略&#xff1a;LRU vs LFU 完全解析前言一、基础概念解析1.1 LRU&#xff08;Least Recently Used&#xff09;- 最近最少使用1.2 LFU&#xff08;Least Frequently Used&#xff09;- 最少使用…