如何分析大语言模型(LLM)的内部表征来评估文本的“诚实性”
基于这样一个假设:模型在生成诚实和不诚实回答时,其内部状态会存在系统性差异
LAT :线性人工断层扫描
我们通过一个生活化的例子来理解如何通过分析大语言模型的内部表征评估文本的“诚实性”。
场景类比:判断水果描述的真实性
假设你是一个水果质检员,需要判断以下两句话的真实性:
- “苹果是甜的。”(诚实描述)
- “苹果是咸的。”(不诚实描述)
你无法直接品尝苹果,但可以通过分析人们谈论苹果时的“语气特征”来判断。
大语言模型的“语气特征” = 内部表征
当大语言模型生成上述两句话时,其内部神经元会产生不同的激活模式(即“内部表征”)。我们可以把这些表征想象成模型的“语气指纹”。
具体评估步骤
1. 收集“诚实”与“不诚实”的样本
- <