摘要

1.背景与问题提出

大语言模型(LLMs)的快速发展引发了对其可能被滥用的担忧。为降低这种风险,将水印技术融入大语言模型,以实现对模型输出的追踪和溯源成为一种思路。而此前研究认为,水印强度和模型输出质量之间存在权衡(即增强水印可能会降低输出质量,反之亦然)。

2.核心研究发现

研究表明,通过恰当的实现方式,能够在不影响模型输出概率分布的情况下整合水印,这类水印被称为 “无偏差水印(unbiased watermark)”。

3.无偏差水印的影响与意义

  1. 用户感知层面:用户无法辨别服务提供商是否在模型中加入了水印,这在保护知识产权等场景下,既实现了追踪目的,又不影响用户使用体验。
  2. 模型性能层面:水印的存在不会损害模型在下游任务中的性能,保障了语言模型的整体实用性。
  3. AI 发展层面:为负责任的 AI 发展相关讨论做出贡献,表明无偏差水印可作为一种有效手段,在不牺牲输出质量的前提下,对模型输出进行追踪和溯源。

第一章 介绍

近年来,大型语言模型(LLMs)已成为各类任务中不可或缺的工具,涵盖文本生成、翻译、摘要生成等。随着大型语言模型滥用情况(如抄袭)不断加剧,追踪机器生成文本的使用情况变得愈发重要。一种可行的监控大型语言模型使用的方法是水印技术,它能在生成的文本中嵌入难以察觉的信息,从而实现对模型潜在滥用情况的高效检测与追踪。

水印技术有多重用途,比如可在生成的文本中嵌入所有权信息,以保护模型的知识产权。此外,通过监控模型的使用场景以及是否被误用或滥用,它还有助于减轻大型语言模型可能带来的潜在危害。

一种好的水印方法,得既不影响语言模型正常用,也不能让生成的文本质量下降。不过,大家普遍觉得,水印的强度和输出文本的质量之间,肯定得做个权衡。比如说,Kirchenbauer 等人最近的研究里,搞了个方法,给随机选的一组 “绿色” 标记的对数概率(logits)加了点东西。通过调整 “对数概率调整的幅度”,他们就展示出,水印强度和文本质量之间是有这种此消彼长关系的。

我们最主要的贡献,就是挑战这种传统看法。我们发现,只要实现方式对了,水印是能在不影响输出质量的情况下加上的。我们把这种特别的水印叫做无偏水印。我们从怎么检测水印的角度,来解决输出质量下降的问题。我们猜想:要是水印让输出质量下降了,那肯定有办法通过文本质量猜出有没有水印;反过来,如果水印根本检测不出来,那就说明输出质量没受影响。具体来讲,我们还证明了,用合适的方式做水印,是不会影响输出的概率分布的。这很重要,因为对于那些没有检测手段的用户来说

没有私钥的用户无法辨别服务提供商是否已对模型应用了水印。此外,添加水印不会对生成文本在任何下游任务中的表现产生影响。我们的主要贡献可总结如下:

  • 我们引入了无偏水印,这是一类创新的水印方法,能够保证文本质量不下降。除此之外,我们还提供了一个全面的框架,有助于无偏水印的设计和检测。
  • 我们提出了两种创新且实用的水印技术,分别称为 δ - 重加权和 γ - 重加权。通过大量的实验,我们证明了这些技术在机器翻译和文本摘要任务中能够保持输出质量。
  • 我们开发了原始对数似然比检验的一种先进的极大极小变体,用于水印检测。这种新颖的检测方法具有理论保障,特别是对第一类错误有上界限制,从而提高了语言模型中水印检测的可靠性。

 第二章 预备知识

在本节中,我们深入探讨大型语言模型(LLMs)语境下的水印问题。首先从构建问题和定义关键概念入手。

2.1问题建模

我们先引入一些符号来将问题形式化。令\(\Sigma\)表示词汇集,即大型语言模型在单步生成中所有可能标记的集合。接着定义集合\(\Sigma^*\)为所有任意长度(包括长度为 0)的可能字符串的集合。

大型语言模型会基于给定上下文生成标记序列。在单步中,给定当前上下文\(x_1, x_2, \dots, x_n\),生成下一个标记\(x_{n + 1} \in \Sigma\)的概率可表示为\(P_M(x_{n+1} \mid x_1, x_2, \dots, x_n)\)。大型语言模型以自回归的方式运作,这意味着生成多个标记\(x_{n+1}, \dots, x_{n+m}\)的联合概率可写成: \(P_M(x_{n+1}, \dots, x_{n+m} \mid x_1, x_2, \dots, x_n) = \prod_{i = 1}^{m} P_M(x_{n+i} \mid x_1, x_2, \dots, x_n, x_{n+1}, \dots, x_{n+i - 1})\)

注记:

LLM 是 “自回归” 的,意思是 “生成下一个标记时,会用到之前所有生成的标记”。 如果要生成m个连续的标记\(x_{n+1}, \dots, x_{n+m}\),就需要:

  • 第一步:根据\(x_1, \dots, x_n\),生成\(x_{n+1}\),概率是\(P_M(x_{n+1} \mid x_1, \dots, x_n)\);
  • 第二步:现在上下文变成了\(x_1, \dots, x_n, x_{n+1}\),再生成\(x_{n+2}\),概率是\(P_M(x_{n+2} \mid x_1, \dots, x_n, x_{n+1})\);
  • ……
  • 第m步:上下文是\(x_1, \dots, x_n, x_{n+1}, \dots, x_{n+m - 1}\),生成\(x_{n+m}\),概率是\(P_M(x_{n+m} \mid x_1, \dots, x_n, x_{n+1}, \dots, x_{n+m - 1})\)。

因为每一步的概率是 “条件概率”(依赖之前所有内容),所以多个标记的联合概率,就是把每一步的条件概率 “相乘”,也就是公式里的: \(P_M(x_{n+1}, \dots, x_{n+m} \mid x_1, \dots, x_n) = \prod_{i = 1}^{m} P_M(x_{n+i} \mid x_1, \dots, x_n, x_{n+1}, \dots, x_{n+i - 1})\)

举个更通俗的例子

比如要生成句子 “I love reading books”

  • 第一步:有上下文(假设初始上下文是空,或有前文铺垫),生成 “I” 的概率是\(P(\text{I} \mid \dots)\);
  • 第二步:上下文变成 “I”,生成 “love” 的概率是\(P(\text{love} \mid \text{I})\);
  • 第三步:上下文变成 “I love”,生成 “reading” 的概率是\(P(\text{reading} \mid \text{I love})\);
  • 第四步:上下文变成 “I love reading”,生成 “books” 的概率是\(P(\text{books} \mid \text{I love reading})\);

所以这整个句子的联合概率,就是\(P(\text{I}) \times P(\text{love} \mid \text{I}) \times P(\text{reading} \mid \text{I love}) \times P(\text{books} \mid \text{I love reading})\),和公式的逻辑完全一致~

为简化起见,我们使用以下符号:\(P_M(\boldsymbol{x}_{n+1:n+m} \mid \boldsymbol{x}_{1:n})\),其中\(\boldsymbol{x}_{n+1:n+m} = (x_{n+1}, \dots, x_{n+m}) \in \Sigma^*\)。

在水印的语境下,我们引入一个服务提供商,该提供商持有来自密钥空间K的私钥k。密钥\(k \in K\)是从先验分布\(P_K(k)\)中随机选取的。大型语言模型的带水印输出遵循分布\(P_{M,w}(x_{n+1} \mid x_1, x_2, \dots, x_n; k)\),该分布同时以密钥k和上下文\(\boldsymbol{x}_{1:n}\)为条件。类似地,我们使用符号\(P_{M,w}(\boldsymbol{x}_{n+1:n+m} \mid \boldsymbol{x}_{1:n}; k)\)来表示在带水印模型中生成标记序列的概率。

可以这样通俗理解:

服务提供商想象成 “加水印的人”,私钥k 是他手里的 “秘密工具”,这个工具是从一堆可能的 “秘密工具”(密钥空间K)里,按照一定的随机规则(先验分布\(P_K(k)\))选出来的。

当大型语言模型要生成带水印的内容时,它生成下一个标记\(x_{n + 1}\)的概率,不仅要考虑之前的上下文\(x_1, x_2, \dots, x_n\),还要用到这个 “秘密工具”k,所以概率写成\(P_{M,w}(x_{n+1} \mid x_1, x_2, \dots, x_n; k)\)。

要是要生成一串标记\(x_{n+1}, \dots, x_{n+m}\)(也就是一段带水印的文本),那整个序列的生成概率,同样要同时依赖上下文\(x_{1:n}\)和私钥k,所以用\(P_{M,w}(x_{n+1:n+m} \mid x_{1:n}; k)\)来表示。简单说就是:加水印不是随便加的,得用一个 “秘密钥匙”k,生成带水印的内容时,每一步的概率都和这个 “钥匙” 以及之前的内容有关。

2.2目标与核心概念精读

目标阐述

我们的目标是设计一种水印方案,要满足两点:一是能被服务提供商高效检测;二是用户无法检测到,且不会对输出质量产生负面影响。

之所以关注用户对水印的检测情况,是因为这和输出质量密切相关。要是水印导致输出质量下降,那应该存在通过检查质量来推断水印存在的方法;反过来,若水印无法被检测,就意味着它对输出质量没影响。

从统计检验的角度看,若带水印和不带水印输出的概率分布完全一致,水印就被认为是严格不可检测的。为了描述这个概念,我们定义了几个理想的水印方案属性。

定义解析
  • 定义 1(n - 次不可检测):对于固定的输入序列\(\boldsymbol{a} \in \Sigma^*\),若对于任意n个字符串\(\boldsymbol{x}^i \in \Sigma^*\),都有\(\prod_{i = 1}^{n} P_M(\boldsymbol{x}^i \mid \boldsymbol{a}) = \sum_{k \in K} P_K(k) \prod_{i = 1}^{n} P_{M,w}(\boldsymbol{x}^i \mid \boldsymbol{a}; k)\),那么带水印的大语言模型与密钥先验对\((P_{M,w}, P_K)\)相较于原始大语言模型\(P_M\)是n - 次不可检测的。
  • 定义 2(下游不变性):若对于任意字符串\(\boldsymbol{x}, \boldsymbol{a} \in \Sigma^*\),以及任意度量函数\(f: \Sigma^* \to \mathbb{R}\),都有\(\mathbb{E}_{\boldsymbol{x} \sim P_{M,w}(\cdot \mid \boldsymbol{a}; k), k \sim P_K}[f(\boldsymbol{x})] = \mathbb{E}_{\boldsymbol{x} \sim P_M(\cdot \mid \boldsymbol{a})}[f(\boldsymbol{x})]\),那么带水印的大语言模型与密钥先验对\((P_{M,w}, P_K)\)相较于原始大语言模型\(P_M\)在下游任务上是不变的。
性质关联与总结

注意,一次不可检测的性质蕴含下游不变性,因为相同的分布对任意函数都会产生相同的期望。有趣的是,这种蕴含关系不需要\(n > 1\)时的n - 次不可检测性质,这意味着,即使用户可能通过多次生成请求察觉到水印的存在,一次不可检测的水印方案仍能在下游任务中保持输出质量。

总之,我们概述了为大语言模型开发水印方案的初步概念和目标。我们强调了n - 次不可检测性和下游不变性这些理想性质,因为它们为水印方案的部署提供了严格的质量保持和完整性的理论保障。在第 4 节,我们将呈现一个被证明对于任意给定整数\(n \geq 1\)都具有n - 次不可检测性的水印框架。

注记:

定义 1:n - 次不可检测

想象你有原始模型(没加水印的大语言模型)和带水印模型

  • 原始模型生成内容时,对于固定输入\(\boldsymbol{a}\)(比如 “请写一段关于春天的文字”),生成n个不同输出(比如n段不同的春天文字\(\boldsymbol{x}^1, \boldsymbol{x}^2, \dots, \boldsymbol{x}^n\))的概率乘积是\(\prod_{i = 1}^{n} P_M(\boldsymbol{x}^i \mid \boldsymbol{a})\)。
  • 带水印模型生成这n个输出时,因为水印是靠 “密钥k” 控制的(k从密钥空间K里随机选,选的概率是\(P_K(k)\)),所以要把 “所有可能的密钥k对应的生成概率” 加权求和(权重就是\(P_K(k)\)),得到\(\sum_{k \in K} P_K(k) \prod_{i = 1}^{n} P_{M,w}(\boldsymbol{x}^i \mid \boldsymbol{a}; k)\)。

如果这两个值相等,就说明:从概率上看,“原始模型生成n个输出的整体概率” 和 “带水印模型用所有可能密钥生成这n个输出的整体概率” 是一样的。这时候,带水印模型就很难被通过 “观察n次生成结果” 检测出来,所以叫 “n - 次不可检测”。

定义 2:下游不变性

“下游任务” 可以理解为 “用生成的文本去做其他事”,比如拿生成的文本去做翻译、摘要等任务。

  • 左边\(\mathbb{E}_{\boldsymbol{x} \sim P_{M,w}(\cdot \mid \boldsymbol{a}; k), k \sim P_K}[f(\boldsymbol{x})]\):带水印模型生成文本\(\boldsymbol{x}\)(依赖输入\(\boldsymbol{a}\)和随机选的密钥k),然后用 “度量函数f”(比如评估翻译准确性的函数)去衡量\(\boldsymbol{x}\)在下游任务里的表现,最后求期望(因为k是随机的,所以要考虑所有k的情况)。
  • 右边\(\mathbb{E}_{\boldsymbol{x} \sim P_M(\cdot \mid \boldsymbol{a})}[f(\boldsymbol{x})]\):原始模型生成文本\(\boldsymbol{x}\)(依赖输入\(\boldsymbol{a}\)),用同样的f衡量表现并求期望。

如果这两个期望相等,就说明:带水印后,文本在下游任务里的表现和原始模型生成的一样,没有变差,这就是 “下游不变性”。

性质关联与总结

  • “一次不可检测”(\(n=1\)时的n - 次不可检测)能推出 “下游不变性”。因为如果 “生成单个文本的概率分布” 和原始模型一样,那用任何函数f去算期望,结果也会一样(就像两个相同的桶,随便选个规则从桶里取东西算平均,结果肯定一样)。
  • 更有趣的是:哪怕 “\(n>1\)时不是n - 次不可检测”(比如用户多次生成,能隐约感觉到水印),只要 “一次不可检测”,下游任务的质量还是能保住。
  • 最后总结:n - 次不可检测和下游不变性这两个性质很重要,因为它们从理论上保证了 “加水印后,文本质量不下降,且不容易被检测”。第 4 节会讲一个能证明对任意\(n \geq 1\)都满足n - 次不可检测的水印框架。

第三章 热身:简化玩具环境中的不可检测性

在本小节中,我们旨在证明在高度简化的玩具环境中,不可检测性是可行的。这项初步分析为理解后续更复杂的场景奠定了基础。

设定:考虑一个提供随机数生成服务的服务提供商。该服务会输出集合\(\{0, 1\}\)中均匀分布的随机数。无水印的生成过程可表示为\(P_M(x) = 1/2\),对所有\(x \in \{0, 1\}\)成立。我们假设密钥k属于集合\(\{0, 1\}\),且被等概率选取。添加水印后,新输出的概率可表示为:\(P_{M,w}(x \mid k) = \delta_k(x)\)。

注记:

“玩具环境(toy environment)” 是学术研究里的一种常用表述,指的是为了便于理解核心概念、验证基础原理,而刻意简化、抽象出来的简单场景或模型,就像给复杂问题做 “缩小版、简化版的模拟实验”。

  • 文中构造了一个 “生成\(\{0,1\}\)均匀随机数” 的场景,符号集(只有 0 和 1)、概率分布(均匀分布)、生成过程(不是自回归,就单步生成)都被极大简化了。
  • 现实中大型语言模型(LLMs)的符号集(海量词汇、标记)更复杂,概率分布也不均匀,生成还是自回归的(一步步生成文本),和这个 “玩具环境” 差异很大

回顾一下,一次不可检测性的性质可表示为\(P_M(x) = \sum_{k \in K} P_{M,w}(x \mid k)P_K(k)\)。假设用户只能向该服务发起一次请求。如果用户不知道密钥,就无法辨别接收到的结果是否带有水印。因此,在这个简化场景中,实现了不可检测性。

然而,这个玩具示例与大型语言模型(LLMs)中水印的实际应用之间存在很大差距。首先,LLMs 中的符号集\(\Sigma\)远比二元集合\(\{0, 1\}\)复杂,且概率分布并非均匀的。此外,LLMs 中的生成过程是自回归的,这意味着多个符号会被迭代生成。而且,该玩具示例对于\(n > 1\)的情况,不满足n - 次不可检测性。

尽管存在这些差异,这个简单示例提供了重要的见解,有助于理解后续我们应对这些挑战的章节。不可检测性的基本原理保持不变,只是在更复杂的环境中,其应用变得更加复杂。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96078.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96078.shtml
英文地址,请注明出处:http://en.pswp.cn/web/96078.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL——事务、MVCC

目录 什么是事务? 事务的四大特性 事务的隔离级别 事务的原理 redo log undo log MVCC实现原理 概念 隐藏字段 undo log版本链 readview 什么是事务? 事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操…

光伏项目无人机踏勘--如何使用无人机自动航线规划APP

手机号免费注册iSolarBP,一起来学习吧,注册获取无人机航线规划APP https://isolar-bp.sungrowplant.com/isolarbp#/login?qrcodeId1952928161454551042https://isolar-bp.sungrowplant.com/isolarbp#/login?qrcodeId1952928161454551042 登录--下载航…

优先搜索(DFS)实战

目录 一、DFS通用解题思路 二、逐题拆解 三、四题对比 四、总结:DFS解决矩阵问题的“万能模板” 在算法解题中,矩阵连通性问题是高频考点,而深度优先搜索(DFS)是解决这类问题的核心工具之一。它通过“一条路走到…

门控MLP(Qwen3MLP)与稀疏混合专家(Qwen3MoeSparseMoeBlock)模块解析

Qwen3MLP Qwen3MLP是基于门控机制的MLP模块,采用了类似门控线性单元(GLU)的结构。它通过三个线性变换层(gate_proj、up_proj和down_proj)和SiLU激活函数,先将输入从隐藏维度扩展到中间维度,经过…

产线相机问题分析思路

现象:复现问题 原因:问题分析、溯源,定位根本原因; 方案:提出解决方案、规避措施 验证:导入、验证方案是否可行(先小批量、再大批量);一. 现象产线反馈4pcs预览又脏污、划…

【开关电源篇】EMI输入电路-超简单解读

1. 输入电路主要包含哪些元件?滤波设计需遵循什么原则? 输入电路是电子设备(如开关电源)的“入口”,核心作用是抑制电磁干扰(EMI)、保护后级电路,其设计直接影响设备的稳定性和电磁…

胜券POS:打造智能移动终端,让零售智慧运营触手可及

零售企业运营中依然存在重重挑战:收银台前的长队消磨着顾客的耐心,仓库里的库存盘点不断侵蚀着员工的精力,导购培训的成本长期居高不下却收效甚微……面对这些痛点,零售企业或许都在等待一个破局的答案。百胜软件胜券POS&#xff…

(回溯/组合)Leetcode77组合+39组合总和+216组合总和III

为什么不能暴力,因为不知道要循环多少次,如果长度为n,难道要循环n次么,回溯的本质还是暴力,但是是可以知道多少层的暴力 之所以要pop是因为回溯相当于一个树形结构,要pop进行第二个分支 剪枝:…

07 下载配置很完善的yum软件源

文章目录前言ping 测试网络排查原因排查虚拟机的虚拟网络是否开启检查net8虚拟网络和Centos 7的ip地址是否在一个局域网点击虚拟网络编辑器点击更改设置记录net8的虚拟网络地址ip a记录Centos 7的ip地址比较net8和Centos 7的ip地址是否在一个网段解决问题问题解决办法修改net8的…

SpringBoot中添加健康检查服务

问题 今天需要给一个Spring工程添加健康检查。 pom.xml <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-actuator</artifactId> </dependency>application.yml management:endpoints:web:e…

AI工具深度测评与选型指南 - AI工具测评框架及方法论

目录引言&#xff1a;AI工具爆发期的机遇与挑战一、从AI模型到AI工具&#xff1a;核心认知与生态解析1.1 DeepSeek&#xff1a;快速出圈的国产大模型代表1.2 大模型的核心能力与类型划分1.2.1 大模型的三层能力与“双系统”类比1.2.2 生成模型与推理模型的核心差异1.3 AI工具与…

Spring Cloud Alibaba快速入门02-Nacos(中)

文章目录实现注册中心-服务发现模拟掉线远程调用1.订单和商品模块的接口商品服务订单服务2.抽取实体类3.订单服务拿到需要调用服务的ip和端口负载均衡步骤1步骤2步骤3步骤4面试题&#xff1a;注册中心宕机&#xff0c;远程调用还能成功吗&#xff1f;1、调用过;远程调用不在依赖…

【Python】数据可视化之热力图

热力图&#xff08;Heatmap&#xff09;是一种通过颜色深浅来展示数据分布、密度和强度等信息的可视化图表。它通过对色块着色来反映数据特征&#xff0c;使用户能够直观地理解数据模式&#xff0c;发现规律&#xff0c;并作出决策。 目录 基本原理 sns.heatmap 代码实现 基…

如何 正确使用 nrm 工具 管理镜像源

目录 nrm 是啥&#xff1f; nrm 的安装 查看你当前已有的镜像源 怎么切换到目标镜像源 添加镜像源 删除镜像源 测试镜像源速度 nrm 是啥&#xff1f; 镜像源&#xff1a;可以理解为&#xff0c;你访问或下载某jar包或依赖的仓库。 nrm&#xff08;Node Registry Manag…

关于对逾期提醒的定时任务~改进完善

Spring Boot 中实现到期提醒任务的定时Job详解在金融或借贷系统中&#xff0c;到期提醒是常见的功能需求。通过定时任务&#xff0c;可以定期扫描即将到期的借款记录&#xff0c;并生成或更新提醒信息。本文基于提供的三个JobHandler类&#xff08;FarExpireRemindJob、MidExpi…

springboot配置请求日志

springboot配置请求日志 一般情况下&#xff0c;接口请求都需要日志记录&#xff0c;Java springboot中的日志记录相对复杂一点 经过实践&#xff0c;以下方案可行&#xff0c;记录一下完整过程 一、创建日志数据模型 创建实体类&#xff0c;也就是日志文件中要记录的数据格式 …

Redis(50) Redis哨兵如何与客户端进行交互?

Redis 哨兵&#xff08;Sentinel&#xff09;不仅负责监控和管理 Redis 主从复制集群的高可用性&#xff0c;还需要与客户端进行有效的交互来实现故障转移后的透明连接切换。下面详细探讨 Redis 哨兵如何与客户端进行交互&#xff0c;并结合代码示例加以说明。 哨兵与客户端的交…

【.Net技术栈梳理】04-核心框架与运行时(线程处理)

文章目录1. 线程管理1.1 线程的核心概念&#xff1a;System.Threading.Thread1.2 现代线程管理&#xff1a;System.Threading.Tasks.Task 和 Task Parallel Library (TPL)1.3 状态管理和异常处理1.4 协调任务&#xff1a;async/await 模式2. 线程间通信2.1 共享内存与竞态条件2…

(JVM)四种垃圾回收算法

在 JVM 中&#xff0c;垃圾回收&#xff08;GC&#xff09;是核心机制之一。为了提升性能与内存利用率&#xff0c;JVM 采用了多种垃圾回收算法。本文总结了 四种常见的 GC 算法&#xff0c;并结合其优缺点与应用场景进行说明。1. 标记-清除&#xff08;Mark-Sweep&#xff09;…

论文阅读:VGGT Visual Geometry Grounded Transformer

论文阅读&#xff1a;VGGT: Visual Geometry Grounded Transformer 今天介绍一篇 CVPR 2025 的 best paper&#xff0c;这篇文章是牛津大学的 VGG 团队的工作&#xff0c;主要围绕着 3D 视觉中的各种任务&#xff0c;这篇文章提出了一种多任务统一的架构&#xff0c;实现一次输…