大家读完觉得有帮助记得关注和点赞!!!
抽象
网络钓鱼攻击仍然是现代网络安全的重大威胁,因为它们成功地欺骗了人类和旨在保护他们的防御机制。传统的检测系统主要关注用户在收件箱中看不到的电子邮件元数据。此外,这些系统还难以应对网络钓鱼电子邮件,有经验的用户通常可以仅通过文本凭经验来识别网络钓鱼电子邮件。本文研究了大型语言模型 (LLM) 通过关注其意图来检测这些电子邮件的实际潜力。除了网络钓鱼电子邮件的二元分类之外,本白皮书还引入了一种意图类型分类法,该分类法由 LLM作,用于将电子邮件分类为不同的类别,从而生成可作的威胁信息。为了促进我们的工作,我们已将公开可用的数据集整理成一个自定义数据集,其中包含合法电子邮件和网络钓鱼电子邮件的组合。我们的结果表明,现有的 LLM 能够检测和分类网络钓鱼电子邮件,突显了它们在该领域的潜力。
索引术语:
网络安全, 电子邮件安全, 网络钓鱼检测, 大型语言模型, AI, 网络威胁信息我介绍
网络钓鱼是一种众所周知的攻击技术,至少可以追溯到 1990 年代[1].随着互联网的使用不断增长,在线访问的资产也越来越多。在当今的数字世界中,大多数企业和组织都连接到互联网,这导致恶意行为者可以利用大量的电子邮件通信。
网络钓鱼电子邮件仍然是一种普遍的威胁[2],因为大多数成功的网络攻击都源于网络钓鱼活动[3,4].许多针对网络钓鱼攻击的电子邮件防御机制侧重于元数据、有关所用协议的信息以及电子邮件中除主题和正文文本字段之外的数据[3].尽管这些方法已经成功地检测了网络钓鱼电子邮件,但有经验或训练有素的用户只需阅读文本即可轻松识别为网络钓鱼的其他电子邮件仍然逃避检测。考虑到这一点,我们的假设如下:
通过处理电子邮件的语言和意图,LLM 可以以补充现有基于元数据的检测技术的方式检测网络钓鱼。
大型语言模型 (LLM) 已被证明展示了这一领域的知识,本文探讨了 LLM 在多大程度上可以作为“有经验的用户”来检测网络钓鱼意图,无论是利用固有知识还是通过使用一个或多个示例的上下文学习。
存在不同类型的网络钓鱼电子邮件,每一种都有不同的意图,以各种 MITRE ATT&CK 技术为特征[5].例如,无针对性大规模网络钓鱼活动背后的意图通常与有针对性的鱼叉式网络钓鱼电子邮件的意图大不相同,后者包含有关受害者的个性化信息。本文探讨了情境学习和网络钓鱼类别,解决了以下五个研究问题:
(RQ1)LLM 可以在多大程度上推断电子邮件中的意图并将其用作网络钓鱼检测的因素?
(RQ2)LLM 中固有的知识在多大程度上,以及小样本学习设置中的示例在多大程度上有助于检测?
(RQ3)LLM 能够在多大程度上解释和证明他们的推理?
(RQ4)LLM 可以在多大程度上区分不同类型的网络钓鱼类别?
(RQ5)网络钓鱼类别提供的上下文知识在多大程度上有助于识别网络钓鱼电子邮件?
除了解决研究问题外,该论文的贡献如下。 基于 MITRE ATT&CK 框架[5]中,我们填充网络钓鱼意图的分类法,并使用它来丰富精选数据集https://github.com/Rub3cula/Datasets/blob/main/100EmailsDataset.csv网络钓鱼电子邮件。然后,我们设计一组提示,并在两个设置下评估它们。在零样本方法中,提示仅与电子邮件一起显示,没有任何所需输出的示例。在少数样本方法中,提示包括与正确标签配对的示例电子邮件,以指导模型。本研究评估了多个 LLM,以评估它们在检测网络钓鱼意图方面的有效性,揭示了使用上下文学习时跨模型的结果喜忧参半。
第二相关工作
在网络安全方面,对网络钓鱼攻击的防御大致可分为两种类型:技术防御和非技术防御[6].非技术防御主要侧重于通过培训课程和模拟网络钓鱼测试等方法教育潜在目标(通常是电子邮件收件人)。这些举措旨在通过教个人如何识别和应对网络钓鱼尝试来建立用户意识和弹性。相比之下,技术防御在通过自动检测和预防机制保护电子邮件平台方面发挥着关键作用。
在[8],作者认为 LLM 可以减少创建高质量、有针对性的网络钓鱼电子邮件所需的工作量和技能障碍。研究表明,通过使用 LLM 通过一种称为提示工程的方法精心制作网络钓鱼电子邮件,可以规避某些检测机制,该方法涉及调整提示以产生特定的响应或结果。 本文建议限制高级模型的功能或实现可追溯性以防止它们在恶意环境中被滥用。此外,作者还提出了一种基于 LLM 的防御系统,其中 LLM 本身可以检测网络钓鱼电子邮件,鉴于 LLM 将继续改进的有力指标,这是一项至关重要的发展,可能会实现更复杂的网络钓鱼攻击活动。网络钓鱼检测系统应考虑快速绕过内容过滤器的提示工程能力[8].
作者在[9]提供实证证据,证明使用 LLM 创建网络钓鱼电子邮件比从在线档案中收集的现有网络钓鱼电子邮件具有更大的激励成功率。尽管 LLM 的性能并未优于使用框架手动编写的电子邮件,但由 LLM 和人工提供支持的网络钓鱼电子邮件取得了最佳效果。作者使用鱼叉式网络钓鱼技术开发了网络钓鱼电子邮件,整合了针对特定目标量身定制的上下文相关信息。尽管该论文的主要目标是研究此类电子邮件的结构,但它也提出了网络钓鱼检测中 LLM 的方法。特别是,作者强调了分析通信意图作为合法营销内容和恶意网络钓鱼尝试之间的潜在区别的重要性。此外[8]展示了 LLM 如何创建经济高效且可扩展的鱼叉式网络钓鱼活动。
除了主题行和正文内容外,公开可用的网络钓鱼数据集通常还包括其他元数据,例如 IP 地址和身份验证协议日志。现有的检测算法经常利用发件人身份验证机制,例如 SPF、DKIM 和 DMARC[10]— 通常由基于机器学习的传统电子邮件安全解决方案采用。例如,SpamAssassin 和反网络钓鱼工作组 (APWG) 等数据集提供 IP 地址、域信息和身份验证结果。这些数据在专注于分析电子邮件整体特征的研究中起着至关重要的作用。此外,许多网络钓鱼电子邮件类似于结构不佳的垃圾邮件,使用户更容易识别和忽略它们。
我们的论文主要侧重于通过仅检查主题行和正文内容来分析电子邮件的意图,从而模拟典型用户感知电子邮件的方式。在传统检测机制失效的情况下,这种方法特别有价值,它允许网络钓鱼邮件绕过安全筛选器并到达用户的收件箱。
聊天垃圾邮件检测器[11]是最近的一个例子,其中 LLM 在网络钓鱼检测方面表现出强大的性能,利用最近的数据集和真实世界的电子邮件实现了 99.7% 的准确率。这明显优于基线系统和其他传统模型。尽管取得了这些可喜的结果,但该方法并不打算完全取代现有解决方案。大规模部署商业 LLM(例如 OpenAI 的 GPT-4o)仍然成本高昂,并且可能不符合隐私最佳实践[12]. 非技术方法侧重于教育用户如何识别网络钓鱼电子邮件[13].许多研究利用公开可用的数据集来进行实验。这些数据集中包含的许多网络钓鱼电子邮件可能被视为简单的尝试;但是,由于电子邮件安全配置不同,它们仍偶尔会出现在用户的收件箱中[15]. 最近,LLM 领域取得了重大进展,尤其是在文本推理任务和零样本学习方面[14].ChatSpamDetector 使用提示来指示 LLM 如何有效地执行检测任务。
第三意图型网络钓鱼分类法
这项工作中使用的分类法源自用于网络钓鱼的 MITRE ATT&CK 技术 T1566[16],如表 I 所示。我们采用 ATT&CK 定义的子技术为三个不同的类别,重点关注攻击者如何进行网络钓鱼尝试。这种分类支持我们对网络钓鱼电子邮件中意图的分析,尤其是在基于 LLM 的检测背景下。通过强调投放向量而不是归因或有效负载分析,我们对这种分类法的使用与研究 LLM 如何解释电子邮件背后的目的的目标一致。为了概括分类并反映对各种网络钓鱼场景(包括涉及 LLM 生成内容的场景)的更广泛适用性,我们在类别名称中省略了术语“矛式”,同时保留了攻击媒介之间的核心区别。
通过链接进行网络钓鱼是指旨在引诱用户点击链接或访问网站的网络钓鱼电子邮件。方法可能包括使用缩短的 URL、与合法域非常相似但包含细微变化的链接(例如,单个更改的字符)或混淆、不可点击的链接。例如,可能会使用文本替换(例如“(dot)com”代替“.com”来伪装 URL,以欺骗收件人在浏览器中手动输入地址。总体而言,此类别包括所有试图将用户重定向到恶意网站的网络钓鱼尝试,无论是通过直接点击还是更间接的方法。
通过附件网络钓鱼是指通过附加到电子邮件的文件传递恶意代码的方法。这种方法依赖于受害者下载附件并与之交互以启动网络感染。此类别适用于附加恶意文件,并且攻击者旨在让受害者打开它的情况。需要注意的是,本研究中进行的实验仅关注电子邮件正文和主题内的文本字段。因此,附件未包含在系统输入中。因此,系统的结果完全基于文本字段,而无权访问实际附件。
通过服务进行网络钓鱼是指更广泛的网络钓鱼攻击类别,它利用传统电子邮件收件箱之外的媒介,这意味着威胁并非来自电子邮件本身的链接或附件。相反,攻击者通常试图通过安全性较低且监控较少的渠道(例如个人电话号码、短信甚至实体邮件)重定向受害者进行互动。这些电子邮件通常包含足够的信息来提示收件人采取进一步行动,例如发起汇款、安装软件或通过第三方服务继续互动。此类别重点介绍利用外部通信渠道绕过基于电子邮件的传统防御措施的网络钓鱼技术。
表 I:将 MITRE ATT&CK 技术转置为网络钓鱼类别
技术 | 网络钓鱼类别 |
---|---|
T1566.001 鱼叉式网络钓鱼附件 | 通过附件进行网络钓鱼 |
T1566.002 鱼叉式网络钓鱼链接 | 通过链接进行网络钓鱼 |
T1566.003 通过服务进行鱼叉式网络钓鱼 | 通过服务进行网络钓鱼 |
四实验装置
IV-A 型数据源和管理
实验中使用的主要数据集包括从三个公开可用的大型电子邮件数据集中手动选择的电子邮件:LING、Nazario 和 Enron。 网络钓鱼电子邮件选自 LING 和 Nazario 数据集,合法电子邮件来自安然数据集。选择这些数据集是因为它们的受欢迎程度和对隐私的合规性,尤其是对于良性电子邮件。标记的数据集是从 Kaggle 下载的[15].
在最初的实验中,据观察,当使用提及公司或其产品的具体引用的 Enron 电子邮件时,LLM 有时会将它们识别为来自 Enron 数据集。虽然很有趣,但这可能会将重点从电子邮件意图上转移开,并导致结果出现偏差。为了保持对检测意图的关注,此类电子邮件被过滤掉。
经过初步实验,创建了包含 100 封手动标记电子邮件的验证集,以确保在最终测试阶段对分类和分类进行公正评估。此验证集遵循与第一个数据集相同的标记架构,但在项目结束之前一直未使用,以最大限度地减少训练中的任何偏差。
这项研究整合了具有不同来源、大小和复杂程度的数据集,以对 LLM 在现实世界中检测网络钓鱼电子邮件的能力进行有力的评估。
IV-A1 号数据预处理
为了标准化数据进行分析,我们按以下方式处理数据集中的数据:
- 1.
电子邮件组件的提取:我们从所有数据集中提取了文本字段,特别是作为标题的“主题”字段和作为每封电子邮件的主要文本内容的“正文”字段。
- 2.
二进制标签识别:在每个数据集中,电子邮件都使用二进制标签进行标记,其中值 1 表示网络钓鱼电子邮件,0 表示合法邮件。
- 3.
手动标记和分类:对于这两个自定义数据集,所有带有网络钓鱼标签的电子邮件都根据分类中的相应意图类别进行了手动分类。
- 4.
过滤掉数据集偏差:在实验期间,一些电子邮件(如来自 Enron 数据集的电子邮件)具有明确的指示符,使 LLM 能够识别文本。对于这些情况和其他示例(例如数据集中的数据格式错误),已删除并替换电子邮件。
IV-B 型提示方法
IV-B1零样本提示
在 zero-shot 实验中,提示的构造没有提供网络钓鱼或合法电子邮件的具体示例。相反,它们依赖于强调关键特征的描述性指导来识别。分类提示仍然相对简单,而分类提示包含更详细的标准。这种零样本方法利用模型的预训练知识,要求它仅根据其内部理解来评估电子邮件是否为恶意电子邮件,而无需明确示例。
第一步,模型会提示二进制 (yes-or-no) 问题,以确定电子邮件是否为恶意电子邮件。如果响应是肯定的,则第二步涉及将电子邮件分类为意图类别,这反映了攻击者旨在提示收件人执行的作。由于没有提供示例,因此模型必须完全依赖其预先训练的知识来推断恶意电子邮件的特征及其潜在意图。
IV-B2Few-shot 学习提示
为了提高准确性,特别是在分类方面,我们实施了一种 Few-shot 学习提示方法。Few-shot Prompt 的主要区别在于,每个类别都包含两个完整的网络钓鱼电子邮件示例,包括标题和正文。这种方法为模型提供了真实示例作为参考,旨在提高它们识别类别中各种模式的能力。
IV-C 型实验
该项目进行了三个实验,所有实验都采用了两种不同的方法:零镜头和少镜头。所有电子邮件均以单个提示形式发送,每个模型之间没有重叠;每个模型一次只收到一个提示,以避免数据污染。
所有实验首先使用零样本方法进行,仅通过电子邮件发送提示,不发送任何示例。LLM 仅使用提示的说明和他们自己的功能来执行他们的任务。
在少数样本方法中,所有实验都使用相同的碱基提示进行,该碱基提示在每个实验中得到增强。在实验的 few-shot 版本中,提示进一步扩充了与特定实验相关的每类网络钓鱼电子邮件的两个标记示例。这些示例作为上下文提示,帮助 LLM 从有限的数据中学习,这种技术通常称为小样本提示。这种设置使我们能够调查模型根据最低限度的、有针对性的指导对网络钓鱼意图进行泛化和分类的能力。
实验 1 通过使用基本的提示工程并询问电子邮件是否是恶意的来调查 LLM 的先天知识。一种常用的提示工程技术,通常称为“角色提示”,用于传达 LLM 将在初始步骤中用作电子邮件分类器的目的。该实验引入了如下所示的提示,该提示将用作所有其他实验的基准。该实验使用相同的提示运行了两次,不同之处在于电子邮件的少数样本示例和所需的输出附加到提示的末尾。实验 1 中的少数镜头提示不包括意图类别。
实验 2 通过在步骤 1 中引入意图类别来增强提示。此添加为 LLM 提供了更多上下文信息,但不构成整个过程中的额外步骤。这些意图类别也包含在 Few-shot 学习示例中,以更有效地指导模型。
实验 3 包含所有三个步骤,通过引入第二步:分类任务,以对 LLM 能力的初步评估为基础。这种扩展的方法旨在通过关注 LLM 对各种网络钓鱼策略的理解和推理能力,评估 LLM 执行更全面分析的能力,超越简单的二元分类。
IV-D 型型号选择
实验使用了四种模型:GPT-4o-mini、Claude 3.5 Haiku、Phi-4 (14B) 和 Qwen (7B)。目标不是确定最有能力的模型,而是探索现代大型语言模型在网络钓鱼检测和分类方面的有效性。Qwen (7B) 是最小和最古老的模型(超过一年),用于评估较小、较新的模型与较新、更大且更具成本效益的企业模型相比的性能。Claude 3.5 Haiku 和 GPT-4o-mini 通过商业 API 访问,而 Qwen (7B) 和 Phi-4 (14B) 在高端消费类台式机上本地运行。
V结果
实验分为三个阶段:(1) 基本恶意电子邮件识别 (Exp1);纳入网络钓鱼技术分类 (Exp2);(3) 将这两项任务与附加的理由要求 (Exp3) 相结合。对于每个阶段,我们都使用了 zero-shot 和 few-shot 学习方法,后缀为 表 II 中分别显示 '-Zero' 和 '-Few',它总结了结果。
表 II:试验的准确性。类别准确度显示为 Detection / Category (如果适用)。
型 | Exp1-零 | Exp1-少数 | Exp2-零 |
---|---|---|---|
GPT-4O-迷你 | 97.00% | 97.00% | 93.00% |
claude-3.5-俳句 | 96.00% | 92.00% | 95.00% |
PHI 4(14B) | 90.00% | 92.00% | 91.00% |
qwen(7b) | 44.00% | 2.00% | 45.00% |
型 | Exp2-Few | Exp3-零 | Exp3-Few |
GPT-4O-迷你 | 92.00% | 94.00% / 86.05% | 92.00% / 95.35% |
claude-3.5-俳句 | 92.00% | 89.00% / 88.37% | 94.00% / 79.07% |
PHI 4(14B) | 88.00% | 93.00% / 86.05% | 89.00% / 76.74% |
qwen(7b) | 0.00% | 25.00% / 9.30% | 0.00% / 0.00% |
在所有实验中,GPT-4o-mini、Claude-3.5-haiku 和 Phi-4 (14b) 始终表现出高准确性,凸显了它们即使在示例数据有限的情况下也能理解和分类恶意电子邮件的能力。Qwen(7b) 的性能比其他型号差得多。在某些任务中,它无法生成正确格式的输出,导致百分比准确率为零。包含分类侧重于攻击者打算让目标用户执行什么,这可能会让安全专业人员在真实攻击的分类过程中抢占先机。理由要求提供了对模型的推理过程和透明度的一些见解。完整的六项实验在单个批次中执行时,大约需要 70 分钟才能完成。总体执行时间主要受本地托管模型的限制。相比之下,仅通过 API 访问进行的实验通常每个实验需要 1 到 3 分钟,GPT-4o-mini 和 Claude Haiku 模型的成本约为 0.01 至 0.03 美元。
所有实验还要求模型生成理由作为输出的一部分。与步骤 1-3 的结果一致,Qwen 在这项任务上的表现不足。此外,Phi-4 和 Claude 遇到了格式问题,导致多达三分之一的电子邮件中出现空理由。这些缺点表明,在理由生成过程中有明显的改进机会。以正确格式提供的理由质量很高,并为确定电子邮件是合法还是可疑提供了良好的逻辑。下面包括通过链接发送合法电子邮件和网络钓鱼电子邮件的示例理由:
合法电子邮件:
通过链接进行网络钓鱼:
六结论和未来的工作
在本文中,我们评估了 LLM 的潜在用途,以根据攻击者的意图检测和分类网络钓鱼电子邮件。实验结果表明,现代 LLM 模型能够推断出与所提出的分类法中的类别一致的攻击向量。此外,这些模型生成的输出为安全专业人员提供了有价值的见解。回到第一节中概述的研究问题,我们的发现可以总结如下:
(RQ1)LLM,尤其是较大的现代模型,表现出了强大的推断网络钓鱼意图的能力,在网络钓鱼检测中实现了 95% 以上的准确率。这不仅限于关键字识别,因为模型可以准确地识别电子邮件如何通过关注攻击者的意图来试图欺骗用户。
(RQ2)LLM 表现出大量的固有知识,在零镜头实验中实现了很高的准确性。然而,通过小样本学习为每个类别合并两个样本的结果喜忧参半:对于某些模型,样本提高了类别的准确性,而在其他情况下,我们观察到准确性降低。如果要引入或进一步探索小样本学习,上下文长度和模型的大小可能很重要。
(RQ3)理由以及检测和分类结果揭示了对模型思维过程的洞察力。虽然对推理质量的全面分析超出了这项工作的范围,但对生成的理由的初步检查表明,两者之间存在相关性 确定了网络钓鱼线索和模型陈述的基本原理。这表明 LLM 不仅仅依赖于表面特征,而且在某种程度上能够将网络钓鱼电子邮件的意图与类别联系起来。
(RQ4)LLM 成功地将网络钓鱼电子邮件分为不同的类别(即链接、附件、服务)。在三个表现最好的模型中,类别准确率在 76% 到 95% 之间(见表 II),这表明仅根据电子邮件的文本,LLM 就可以将电子邮件分类为鱼叉式网络钓鱼技术,准确率很高。这表明了区分网络钓鱼类别的显著能力,超越了简单的二元分类。
(RQ5)通过对网络钓鱼电子邮件进行分类,LLM 展示了利用特定领域的知识来识别攻击者的意图、对威胁进行分类和分类以及生成解释性理由来解释为什么电子邮件被视为恶意的能力。提取的信息(包括已识别的指标和推断的意图)可以补充传统的安全过滤器,尤其是在网络钓鱼电子邮件绕过现有检测系统的情况下。这个额外的分析层有可能减少误报,并帮助安全专业人员对基于电子邮件的安全事件进行分类和调查。
根据我们的工作,我们确定了未来研究的几个领域。首先,如前所述,我们建议在与安全分析师的对照实验中解决推理和论证能力 (RQ3)。其他需要进一步工作的领域包括:在更大、更多样化的网络钓鱼电子邮件真实数据集上评估模型;调查基于 LLM 的方法与现有电子邮件安全系统的集成;对现有 LLM 进行微调;对 LLM 的使用进行成本效益分析;探索不同的提示策略;以及实施人机协同验证系统。这些未来的研究方向可能有助于更深入地了解 LLM 在网络钓鱼检测和分类方面的能力和局限性。