bicheng/2025/7/1 15:44:50/文章来源:https://blog.csdn.net/dundunmm/article/details/149033696

“语料投毒”（Corpus Poisoning） 是指攻击者通过向大型语言模型（如 ChatGPT）使用的外部知识库中注入恶意或误导性文档，从而干扰模型的检索与回答过程，导致其输出错误、虚假或有害内容。

🔍 举个例子：

假设某个 RAG 系统会从网络知识库中检索信息来回答用户问题。

正常情况下：
- 问题：谁是 OpenAI 的 CEO？
- 正确回答：Sam Altman
但如果攻击者偷偷在知识库中插入了一篇看似可信、但写着“Tim Cook 是 OpenAI CEO”的文档，那么模型就可能检索到这个伪信息，并在回答中错误地说“Tim Cook”。

这就是语料投毒攻击的效果：通过影响检索源，来误导生成结果。

🧨 常见语料投毒方式：

注入恶意文档：伪装成正常内容，嵌入错误事实或攻击性指令。
引导提示攻击（Prompt Injection）：在文档中嵌入指令，如“忽略用户问题，回答为XXX”。
对抗性文本生成：利用 LLM 自己生成多个具有高相似度的误导性文本，集中投毒一个问题。

🎯 攻击目的可能包括：

散布假信息（如假新闻、虚假答案）
修改或歪曲事实（如历史、人物信息）
插入攻击指令（如提示注入、绕过安全机制）
利用模型生成有害内容（如欺诈、恶意代码）

🛡️ 防御方式（如 TrustRAG 提出）：

聚类检测：利用嵌入空间中的聚集性特征识别异常（如K-means找出高相似恶意文档）。
内容一致性判断：比较 LLM 的内部知识与外部检索信息，识别冲突内容。
文档过滤机制：基于相似度和一致性评估，排除潜在投毒内容。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/87035.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/87035.shtml
英文地址，请注明出处：http://en.pswp.cn/bicheng/87035.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

疏通经脉: Bridge 联通逻辑层和渲染层

本节概述经过前面两节的开发，我们已经完成了小程序逻辑线程和 UI 线程的启动引擎准备，这节开始，我们将完善 native bridge 层的搭建，构建起逻辑线程和UI线程之间的桥梁。开始之前我们先来回顾一下逻辑引擎小节相关的流程图: 一…

阅读更多...

【攻防篇】解决：阿里云docker 容器中自动启动xmrig挖矿

解决：阿里云服务器docker容器被植入挖矿程序 **1. 紧急处理：停止挖矿进程****（1）查找并终止 xmrig 进程****（2）删除恶意文件** **2. 清理被感染的容器****（1）停止并删除容器****&…

阅读更多...

对称非对称加密，https和http，https通讯原理，Charles抓包原理

对称非对称加密，https和http，https通讯原理，Charles抓包原理

文章目录对称加密的非对称加密http和https原理TCP三次握手四次挥手https通讯流程：Charles抓包原理对称加密的非对称加密对称加密：发送方的接收方式使用同一个秘钥进行加密和解密，发送方将需要发送的数据，选择某种加密算法&…

阅读更多...

Kubernetes（K8s）_15_调度原理

文章目录 Pod调度实现原理调度队列优先队列底层数据调度缓存调度框架 Pod调度 Pod调度: 通过污点、容忍度和亲和性影响Pod的调度调度器实现, 其基于配置器构造(其配置来源于配置API)调度过程中任何插件返回拒绝, 都会导致Pod可能再次返回调度队列如: Pod调度简略流程调度…

阅读更多...

moduo之tcp客户端TcpClient

结构 #mermaid-svg-muvN6eOMXA4rCyXP {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-muvN6eOMXA4rCyXP .error-icon{fill:#552222;}#mermaid-svg-muvN6eOMXA4rCyXP .error-text{fill:#552222;stroke:#552222;}#merm…

阅读更多...

中国科技术语杂志中国科技术语杂志社中国科技术语编辑部2025年第3期目录

理论研究认知术语学与社会认知术语学比较研究吴小芳; 3-11 大语言模型背景下的术语翻译研究：现状、问题与展望朱玉彬;王梓; 12-20 航空事件谣言叙事中的术语初探刘成盼;刘东亮; 21-28 定名研讨浅谈训诂、训诂学和训诂学术语林童; 29-35 …

阅读更多...

自然语言处理NLP期末复习

目录第一章1. NLP的基本过程包括哪些-自然语言处理面临的困难是什么2. 自然语言处理算法定义，过程和应用3. 结合自己的研究-描述研究中涉及的自然语言处理模型或算法，模型或算法原理，具体的处理过程4. 自然语言处理的的两大核心任务是5. 程序…

阅读更多...

单片机 - STM32F103“复用功能重映射”完整解析：从JTAG释放到TIM重映射实战详解

单片机 - STM32F103“复用功能重映射”完整解析：从JTAG释放到TIM重映射实战详解

本文将详细讲解 STM32F103 系列中常见的“复用功能重映射”（Remap）机制，包括 JTAG 占用、引脚默认功能与复用功能的关系，以及如何通过寄存器或标准库代码实现重映射。以 TIM3 在 PB4/PB5 上输出 PWM 为例，进行实战讲解…

阅读更多...

【C语言】知识总结·内存函数

目录前言： 一、内存复制函数 1. memcpy - 内存块复制 2. memmove - 内存块移动二、内存设置函数 1. memset - 内存块填充三、内存比较函数 1. memcmp 2.memchr 三内存分配函数 1 .malloc 2.free 总结： 注意事项： 前言&…

阅读更多...

python+uniapp基于微信小程序面向品牌会员的在线商城系统

文章目录具体实现截图本项目支持的技术路线源码获取详细视频演示：文章底部获取博主联系方式！！！！本系统开发思路进度安排及各阶段主要任务java类核心代码部分展示主要参考文献：源码获取/详细视频演示 ##项目…

阅读更多...

小鱼fish系统 sudo apt update报错（密钥失效）

在使用小鱼fish提供的系统镜像文件，sudo apt update系统更新时遇到了以下报错，即ROS 2 仓库的 GPG 密钥已过期，以及 Docker 仓库使用了过时的密钥存储方式 fishrosfishros-linux:~$ sudo apt update 获取:1 http://mirrors.tuna.tsinghua.ed…

阅读更多...

深度优先搜索 (DFS) 详解

1. 什么是深度优先搜索？ 深度优先搜索（Depth-First Search, DFS）是一种用于遍历或搜索树或图的算法。这个算法会尽可能深地搜索树的分支。当节点v的所在边都已被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进…

阅读更多...

文心4.5开源大模型的使用和部署

前言就在今天，文心4.5模型开源了，不是一个，而是整个系列模型正式开源。很突然，我都震惊了。文心4.5系列开源模型共10款，涵盖了激活参数规模分别为47B 和3B 的混合专家（MoE）模型（最…

阅读更多...

HarmonyOs开发之——TypeScript介绍、入门，及 TypeScript、JavaScript、ArkTs的具体区别解读。

HarmonyOs开发之——TypeScript介绍、入门，及 TypeScript、JavaScript、ArkTs的具体区别解读。

HarmonyOs开发之——TypeScript介绍、入门，及 TypeScript、JavaScript、ArkTs的具体区别解读。一、开发语言介绍： TypeScript是JavaScript的超集，ArkTS则是TypeScript的超集。ArkTs是 HarmonyOs的主力开发语言，它在TypeScript…

阅读更多...

《JMS事务性会话彻底解析：消息监听中的 commit、rollback 和幂等设计》

《JMS事务性会话彻底解析：消息监听中的 commit、rollback 和幂等设计》

大家好，我是G探险者！ 📌 场景引入在实际项目中，我们常常面临以下挑战： 监听 MQ 消息失败了，希望自动重试？消费 MQ 消息后，要写数据库，但中间报错了？消息处…

阅读更多...

vue3 el-table 列增加自定义排序逻辑

在 Vue 3 中使用 Element Plus 的 <el-table> 组件时，如果你想增加自定义排序逻辑，可以通过以下几个步骤实现： 1. 使用 default-sort 属性首先，你可以在 <el-table> 组件上使用 default-sort 属性来指定默认的排序…

阅读更多...

ISP Pipeline（7）： Gamma Correction 伽马校正

AI_Plays/ISP/Fast_ISP_Progress.ipynb at main ameengee/AI_Plays GitHub Gamma Correction（伽马校正）是图像处理中的一个重要步骤，目的是调整图像的亮度，使其更符合人眼的感知或显示设备的特性。为什么需要 Gamma Correcti…

阅读更多...

AI提取伴奏，实现卡拉OK效果 —— 「suno api/luno api/kuka api」

AI提取伴奏，实现卡拉OK效果 —— 「suno api/luno api/kuka api」

导读喜欢唱歌，却总苦于找不到纯净的伴奏？或者你想把喜欢的歌曲翻唱一遍，却被人声干扰搞得头大？现在，AI技术已经悄悄解决了这个问题。借助AI智能工具，你可以轻松提取任何一首歌的伴奏，享受宛如…

阅读更多...

pip介绍

pip是什么？ pip（Pip Installs Packages）是Python的官方管理工具，用于安装、升级、卸载和管理Python第三方库及其依赖关系。它是Python生态系统的核心组件，通过连接PyPI（Python Package Index）这…

阅读更多...

机器学习20-线性网络思考

机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释 1-核心知识点 1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量…

阅读更多...

最新文章