1 prefix Tunning

链接:https://blog.csdn.net/m0_66890670/article/details/142942034 这里有基础的细节介绍。我下面直接总结。

 连接2 :https://zhuanlan.zhihu.com/p/1899112824342577371,简单明了

prefix Tunning改变了什么呢?

✅ Prefix-Tuning 显式扩展了 K/V 投影的尺寸;

Prefix-Tuning 会初始化一个可训练的参数矩阵(),其维度为 [prefix_length, hidden_dim]。在输入阶段,该前缀矩阵会与原始输入的嵌入向量 直接拼接,形成 [PREFIX; X] 的结构。

  • inputs = torch.cat([prefix, input_ids], dim=1)  # 拼接前缀与原始输入
    

计算流程:

  • 参数高效性:仅需训练前缀参数(5×768),冻结原始模型权重7。
  • 注意力机制扩展:前缀通过修改K/V间接影响注意力分布,无需调整模型结构;

对于前缀 于 X分别进行计算然后拼接。 

注意:

链接:https://blog.csdn.net/m0_66890670/article/details/142942034

2 Prompt Tuning

Prefix 与 prompt tunning 在注意力矩阵计算的二者的区别:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90204.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90204.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90204.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FlashAttention 深入浅出

一 标准Attention的计算 1.1 标准Attention机制详解 标准Attention(注意力)机制是深度学习,尤其是在自然语言处理领域中一项革命性的技术,它允许模型在处理序列数据时,动态地将焦点放在输入序列的不同部分,…

C/C++ inline-hook(x86)高级函数内联钩子

🧵 C/C inline-hook(x86)高级函数内联钩子 引用: fetch-x86-64-asm-il-sizeC i386/AMD64平台汇编指令对齐长度获取实现 🧠 一、Inline Hook技术体系架构 Inline Hook是一种二进制指令劫持技术,通过修改目…

云服务器的安全防护指南:从基础安全设置到高级威胁防御

随着云计算的广泛应用,云服务器已成为企业和个人存储数据、运行应用的重要基础设施。然而,随之而来的安全威胁也日益增多——从常见的网络攻击(如 DDoS、SQL 注入)到复杂的恶意软件和零日漏洞,无一不考验着系统的安全性…

状态机管家:MeScroll 的交互秩序维护

一、核心架构设计与性能基石 MeScroll作为高性能滚动解决方案,其架构设计遵循"分层解耦、精准控制、多端适配"的原则,通过四大核心模块实现流畅的滚动体验: 事件控制层:精准捕获触摸行为,区分滚动方向与距…

数据出海的隐形冰山:企业如何避开跨境传输的“合规漩涡”?

首席数据官高鹏律师数字经济团队创作,AI辅助凌晨三点的写字楼,某跨境电商的技术总监盯着屏幕上的报错提示,指尖悬在键盘上迟迟没落下。刚从新加坡服务器调取的用户行为数据,在传输到国内分析系统时被拦截了——系统提示“不符合跨…

【Rust base64库】Rust bas64编码解码详细解析与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Rust开发…

如何利用AI大模型对已有创意进行评估,打造杀手级的广告创意

摘要 广告创意是影响广告效果的最重要的因素之一,但是如何评估和优化广告创意,一直是一个难题。传统的方法,如人工评审、A/B测试、点击率等,都有各自的局限性和缺陷。本文将介绍一种新的方法,即利用人工智能大模型&am…

OSCP - HTB - Cicada

主要知识点 SMB 用户爆破Backup Operator 组提权 具体步骤 nmap扫描一下先,就像典型的windows 靶机一样,开放了N多个端口 Nmap scan report for 10.10.11.35 Host is up (0.19s latency). Not shown: 65522 filtered tcp ports (no-response) PORT …

10046 解决 Oracle error

How to Offline a PDB Datafile in NOARCHIVELOG mode CDB which is not Open in Read Write (Doc ID 2240730.1)1. pdb 下的datafile 只能在pdb下操作,不能在cdb下操作For the purposes of this document, the following fictitious environment is used as an exa…

在HP暗影精灵Ubuntu20.04上修复IntelAX211Wi-Fi不可用的全过程记录——系统安装以后没有WIFI图标无法使用无线网

在 HP 暗影精灵 Ubuntu 20.04 上修复 Intel AX211 Wi-Fi 不可用的全过程记录 2025 年 7 月初 系统环境:HP OMEN(暗影精灵)笔记本 | 双系统 Windows 11 & Ubuntu 20.04 | 内核 5.15 / 6.15 mainline 问题关键词:Intel AX21…

Sql server 中关闭ID自增字段(SQL取消ID自动增长)

sql server在导入数据的时候,有时候要考虑id不变,就要先取消自动增长再导入数据,导完后恢复自增。 比如网站改版从旧数据库导入新数据库,数据库结构不相同,可能会使用insert into xx select ..from yy的语句导入数据。…

Python实现文件夹中文件名与Excel中存在的文件名进行对比,并进行删除操作

以下python程序版本为Python3.13.01.请写一个python程序,实现以下逻辑:从文件夹获取所有文件名,与Excel中的fileName列进行对比,凡是不在该文件夹下的文件名,从Excel文档中删除后,并将Excel中fileName和fil…

广告业务动态查询架构设计:从数据建模到可视化呈现

在数字化营销领域,广告主每天面临着海量数据带来的分析挑战:从账户整体投放效果,到分渠道、分地域的精细化运营,每一层级的数据洞察都需要灵活高效的查询能力。我们的广告业务动态查询系统,正是为解决这类需求而生 &am…

pytorch、torchvision与python版本对应关系

pytorch、torchvision与python版本对应关系 可以查看官网: https://github.com/pytorch/vision#installation

【机器学习笔记 Ⅲ】3 异常检测算法

异常检测算法(Anomaly Detection)详解 异常检测是识别数据中显著偏离正常模式的样本(离群点)的技术,广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析:1. 异常类型类型描述示例点异常单个…

【ssh】在 Windows 上生成 SSH 公钥并实现免密登录 Linux

在 Windows 上生成 SSH 公钥并实现免密登录 Linux,可以使用 ssh-keygen 命令,这是 Windows 10 和 Windows 11 中默认包含的 OpenSSH 工具的一部分。下面是详细步骤: 在 Windows 上生成 SSH 公钥 打开 PowerShell 或命令提示符: 在…

MS51224 一款 16 位、3MSPS、双通道、同步采样模数转换器(ADC)

MS51224 是一款 16 位、3MSPS、双通道、同步采样模数转换器(ADC),具有集成的内部参考和参考电压缓冲器。芯片可由 5V 单电源供电,支持单极性和全差分模拟信号输入,具有出色的直流和交流性能。芯片模拟输入信号频率高达…

WPF学习(四)

文章目录一、用户控价1.1 依赖属性的注册1.2 具体使用一、用户控价 1.1 依赖属性的注册 using System.Windows; using System.Windows.Controls;namespace WpfApp {public partial class MyUserControl : UserControl{// 依赖属性:外部可绑定的文本public static …

vue3+typescript项目配置路径别名@

1. vite.config.ts配置//方法1 import { defineConfig } from vite; import vue from vitejs/plugin-vue; import path from path;export default defineConfig({plugins: [vue()],resolve: {alias: {: path.resolve(__dirname, src)}} });//方法2,需要执行npm install -D type…

MySql 常用SQL语句、 SQL优化

✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨SQL语句主要分为哪几类 SQL(结构化查询语言)是用于管理和操作关系型数据库的标准语言,其语句通常根据功能划分为以下几大类,每类包含不同的子句和命令,用于实现特定的数据库操作需求&am…