原文:Generative AI and Large Language Models for Cyber Security: All Insights You Need
作者:Mohamed Amine Ferrag, Fatima Alwahedi, Ammar Battah, Bilel Cherif, Abdechakour Mechri, and Norbert Tihanyi
摘要
网络威胁的快速演变需要创新的方法来加强网络安全防御。本文通过生成式人工智能和大语言模型(LLMs)的视角,对网络安全的未来进行全面且深入的综述。探究大语言模型在各个网络安全领域的应用,包括硬件设计安全、入侵检测、软件工程、设计验证、网络威胁情报、恶意软件检测以及网络钓鱼和垃圾邮件检测。我们详细概述了大语言模型的发展历程及其现状,重点关注42个特定模型(如GPT - 4o、GPT - 4、GPT - 3.5、Mixtral - 8x7B、BERT、Falcon2、Gemma、Phi - 2、Phi - 3和LLaMA)的进展。我们的分析延伸到大语言模型固有的漏洞,包括提示注入、不安全的输出处理、训练和推理数据投毒、DDoS攻击以及对抗性自然语言指令。我们还深入研究了保护这些模型的缓解策略,全面审视潜在的攻击场景和防范技术。此外,我们评估了42个大语言模型在网络安全知识和硬件安全方面的性能,突出它们的优势和劣势。我们的研究全面评估了为大语言模型训练和测试而定制的网络安全数据集,涵盖从数据创建到使用的整个生命周期,并确定未来研究的差距和机遇。我们讨论了在网络安全环境中使用大语言模型的挑战和局限性,例如应对对抗性攻击和确保模型的稳健性。此外,我们回顾了利用大语言模型的新策略,包括半二次量化(HQQ)、人类反馈强化学习(RLHF)、直接偏好优化(DPO)、优势比偏好优化(ORPO)、GPT生成统一格式(GGUF)、量化低秩适配器(QLoRA)和检索增强生成(RAG)等先进技术。这些见解旨在加强实时网络安全防御,并提高大语言模型在威胁检测和响应方面应用的复杂性。我们的论文旨在为将大语言模型整合到未来的网络安全框架中提供一个基础性的理解和战略方向,强调创新和稳健的模型部署对于防范不断演变的网络威胁的重要性。
一、引言
自然语言处理(NLP)的历史可追溯到20世纪50年代图灵测试被提出之时。然而,近几十年来,随着循环神经网络(RNN)[1]、长短期记忆网络(LSTM)[2]、门控循环单元(GRU)[3]以及Transformer方法[4]的引入,自然语言处理取得了重大进展。RNN于20世纪90年代首次被提出,用于对数据序列进行建模。LSTM作为RNN的一种变体,于1997年被提出,它解决了梯度消失问题,并使自然语言处理模型能够拥有更长期的记忆。GRU是RNN的另一种变体,于2014年被提出,它减少了参数数量并提高了计算效率[5]。自然语言处理领域的最新突破是2017年Transformer的引入,它使顺序数据能够并行处理,并彻底改变了机器翻译等任务。这些方法极大地改进了各种自然语言处理任务,包括情感分析、语言生成和翻译[4]、[6]、[7]。
网络安全是一个不断发展的领域,威胁变得日益复杂和精密。随着组织和个人依靠数字技术进行通信、商业活动以及维持关键基础设施,对强有力的网络安全措施的需求比以往任何时候都更为迫切[8]。网络威胁的规模和多样性使安全专业人员有效识别、检测和防御这些威胁成为一项艰巨的挑战。在这种背景下,大语言模型(LLMs)作为一种改变游戏规则的技术应运而生,它有潜力显著提升网络安全实践[9] - [13]。这些由先进的自然语言处理和机器学习(ML)技术驱动的模型,为对抗网络威胁提供了新的前沿领域[14]、[15]。本文探讨了大语言模型在网络安全中的动机和应用。
网络安全专业人员经常需要筛选大量的文本数据,包括安全警报、事件报告、威胁情报源以及研究论文,以在不断演变的威胁面前保持领先地位。像Falcon 180b[16]这样的大语言模型具备自然语言理解能力,使它们能够高效地解析、总结这些信息并确定其上下文关系[7]、[17]、[18]。它们有助于快速识别相关的威胁情报,使分析人员能够做出更明智的决策并对响应进行优先级排序[19]。大语言模型在网络安全的各个领域都能表现出色。图1突出显示了大语言模型在该领域的九大用例和应用[20]。
威胁检测与分析:大语言模型能够实时分析大量网络数据以检测异常和潜在威胁。它们能够识别表明网络攻击(如恶意软件、网络钓鱼企图和异常网络流量)的模式[19]。
安全自动化:大语言模型能够促进日常安全任务(如补丁管理、漏洞评估和合规性检查)的自动化。这减轻了网络安全团队的工作量,使他们能够专注于更复杂的任务[9]。
网络钓鱼检测与应对:大语言模型能够通过分析文本中的恶意意图并将其与已知的网络钓鱼示例进行比较来识别网络钓鱼邮件。它们还能够生成警报并推荐预防措施[21]。
网络取证:大语言模型能够通过解析日志和数据来确定攻击的原因和方法,从而有助于取证分析,进而协助恢复过程和制定未来的预防策略[22]。
渗透测试:大语言模型能够帮助生成脚本或修改现有脚本,以使渗透测试过程的某些部分自动化。这包括用于漏洞扫描、网络映射和利用已知漏洞的脚本。
安全协议验证:大语言模型能够帮助验证诸如TLS/SSL、IPSec等协议的安全性。
事件响应:在网络安全事件期间,大语言模型能够通过提供快速的情况分析、建议缓解策略以及在适用的情况下自动响应来提供协助[24]。
聊天机器人:大语言模型通过提供用户交互、事件报告与处理、实时协助、培训与模拟以及常见问题解答自动化,显著增强了网络安全环境中聊天机器人的能力[25]。
安全培训与意识:大语言模型能够根据组织的需求生成培训材料。它们还能够模拟网络钓鱼攻击和其他安全场景,以培训员工识别和应对安全威胁[26]。
本文的主要目的是利用生成式人工智能和大语言模型(LLMs)对网络安全的未来进行深入且全面的综述,涵盖网络领域的所有相关主题。本研究的贡献总结如下:
• 综述了大语言模型在网络安全用例中的应用,如硬件设计安全、入侵检测、软件工程、设计验证、网络威胁情报、恶意软件检测、网络钓鱼和垃圾邮件检测等,从而细致入微地理解大语言模型在不同网络安全领域的能力;
• 全面概述了大语言模型在网络安全中的应用,详细阐述了它们的发展历程和现状,包括42个特定模型(如GPT - 4o、GPT - 4、BERT、Falcon和LLaMA模型)的进展;
• 分析了与大语言模型相关的漏洞,包括提示注入、不安全的输出处理、训练数据投毒、推理数据投毒、DDoS攻击和对抗性自然语言指令。我们还研究了保护这些模型免受此类漏洞影响的缓解策略,全面审视潜在的攻击场景和防范技术;
• 评估了42个大语言模型在网络安全领域不同数据集上的性能。
• 深入评估了为大语言模型训练和测试定制的网络安全数据集。这包括从数据集创建到使用的生命周期分析,涵盖数据清理、预处理、标注和标记等各个阶段。我们还对网络安全数据集进行比较,以确定未来研究的差距和机遇;
• 阐述了在网络安全环境中使用大语言模型的挑战和局限性,如应对对抗性攻击和确保稳健性。我们还讨论了这些挑战对未来大语言模型部署以及安全、优化模型开发的影响;
• 讨论了在网络安全中利用大语言模型的新见解和策略,包括半二次量化(HQQ)、人类反馈强化学习(RLHF)、直接偏好优化(DPO)、优势比偏好优化(ORPO)、GPT生成统一格式(GGUF)、量化低秩适配器(QLoRA)和检索增强生成(RAG)等先进技术。这些见解旨在加强实时网络安全防御,并提高大语言模型在威胁检测和响应方面应用的复杂性。
本文的其余部分结构如下。第二部分深入分析该领域的相关综述,描绘大语言模型在人工智能中的发展历程和现状。第三部分深入探讨自然语言处理应用于网络安全的预备知识,涵盖基础模型及其进展。第四部分讨论基于大语言模型的特定网络安全解决方案。第五部分综述一般的大语言模型。第六部分综述特定代码的大语言模型。第七部分探究为大语言模型训练和评估而设计的各种网络安全数据集,详细阐述其开发生命周期和特定属性。第八部分聚焦与大语言模型相关的漏洞及其缓解策略,引入潜在威胁和防御机制的分类。第九部分全面深入地探讨将大语言模型整合到网络安全框架中的挑战和局限性,包括实际考量和理论约束。最后,第十部分通过总结关键发现并为大语言模型和网络安全的未来研究提出方向来对本文进行总结。图2展示了本文结构的简要概述。
二、相关综述
本节深入探讨了近期一系列精心挑选的文章,这些文章对大语言模型(LLMs)不断发展的格局及其多方面的应用做出了重大贡献。这些综述对大语言模型的各个维度进行了全面且富有洞察力的探索,包括它们在硬件设计安全方面的创新应用、评估方法以及在人工智能中不断演变的角色。此外,这些综述涵盖了自然语言处理(NLP)预训练语言模型(PLMs)的前沿进展,深入研究了大语言模型指令微调的复杂性,并探讨了它们在软件工程中的有效整合。本节还深入研究了多模态算法,考察了大语言模型对齐要求的关键方面,并讨论了将外部知识整合到预训练语言模型中以增强自然语言处理任务的情况。最后,它揭示了自然语言生成(NLG)中可控文本生成(CTG)这一新兴领域的情况,强调了这个充满活力且快速发展的研究领域的最新趋势和挑战[41 - 43]。
A. 大语言模型在硬件设计安全中的应用
萨哈(Saha)等人[27]讨论了大语言模型在硬件设计安全背景下的几个关键应用。该论文阐述了大语言模型如何通过精心设计的自然语言提示有意地在寄存器传输级(RTL)设计中引入漏洞和弱点,这展示了模型理解和操作复杂技术设计的能力。作者探索了使用大语言模型评估硬件设计的安全性。该模型被用于识别漏洞、弱点和潜在威胁,还用于找出可能演变成重大安全漏洞的简单编码问题,这凸显了模型批判性评估技术设计的能力。在这种应用中,大语言模型验证硬件设计是否符合特定的安全规则或策略。该论文检验了模型在计算安全指标、理解安全属性以及生成功能测试平台以检测弱点方面的熟练程度。这项研究的这一部分强调了大语言模型进行全面且详细的验证过程的能力。最后,该论文研究了如何有效地利用大语言模型针对设计中现有的漏洞制定应对措施。这一方面着重于模型解决问题和创建解决方案以提高硬件设计安全性的能力。总体而言,该论文深入分析了大语言模型如何在硬件设计安全的各个阶段(从漏洞引入和评估到验证和应对措施制定)成为一个强有力的工具。
B. 大语言模型的评估
常(Chang)等人[26]对大语言模型评估进行了全面分析,涉及三个关键方面:评估标准(评估什么)、评估环境(在哪里评估)和评估方法(如何评估)。该论文全面综述了不同领域的各种任务,以了解大语言模型的成功与失败之处,为未来的研究方向做出了贡献。该论文还讨论了当前的评估指标、数据集和基准,并引入了新的方法,从而深入理解当前的评估现状。此外,该论文强调了大语言模型评估中的未来挑战,并通过开源相关材料支持研究社区,促进该领域的协作发展。
C. 人工智能中大语言模型的发展历程与现状
赵(Zhao)等人[24]对大语言模型在人工智能中的发展历程和现状进行了深入调研。该调研追溯了从统计语言模型到神经语言模型的发展进程,特别关注了基于在大量语料库上训练的Transformer模型的预训练语言模型(PLMs)的近期出现情况。该论文强调了通过扩大这些模型规模所取得的重大进展,指出大语言模型在超过一定阈值后表现出显著的性能提升,并展现出在小规模模型中未发现的独特能力。该调研涵盖了大语言模型的四个关键方面:预训练、自适应调整、利用和能力评估,提供了对其技术发展及其带来的挑战的见解。此外,该论文讨论了可用于大语言模型开发的资源,并探索了潜在的未来研究方向,强调了大语言模型对人工智能开发和应用的变革性影响。
D. 自然语言处理中预训练语言模型的进展
闵(Min)等人[28]对在自然语言处理(NLP)中利用预训练语言模型(PLMs)的最新进展进行了调研,将相关方法归纳为三个主要范式。首先,“预训练 - 然后微调”方法涉及在大型无标记数据集上进行通用预训练,然后针对目标自然语言处理任务进行特定的微调。其次,“基于提示的学习”使用定制的提示将自然语言处理任务转换为类似于预训练语言模型预训练的格式,提高了模型的性能,特别是在小样本学习场景中。最后,“自然语言处理即文本生成”范式将自然语言处理任务重新构想为文本生成问题,充分利用像GPT - 2和T5这样的生成式模型的优势。这些范式代表了将预训练语言模型用于各种自然语言处理应用的前沿方法。
E. 大语言模型的指令微调
张(Zhang)等人[29]深入研究了大语言模型的指令微调领域,对这个快速发展的领域的各个方面进行了详细探索。该调研首先概述了指令微调中使用的一般方法,然后讨论了为这种方法定制的常用代表性数据集的构建。该调研重点介绍了一系列指令微调模型,展示了它们的多样性和能力。它还研究了多模态技术和数据集,包括涉及图像、语音和视频的那些,反映了指令微调的广泛适用性。该调研回顾了使用指令微调策略使大语言模型适应不同领域和应用的情况,展示了这种方法的多功能性。此外,该调研探讨了提高指令微调效率的努力,重点关注降低计算和时间成本。最后,该调研对这些模型进行了评估,包括性能分析和批判性观点,提供了对大语言模型中指令微调的现状和潜力的整体看法。
F. 软件工程中的大语言模型
范(Fan)等人[30]提出了一项关于在软件工程(SE)中使用大语言模型的调研,强调了它们的潜在应用和开放的研究挑战。大语言模型以其涌现特性而闻名,在各种软件工程活动(包括编码、设计、需求分析、错误修复、重构、性能优化、文档编制和分析)中提供新颖和创造性的解决方案。尽管有这些优势,该论文也承认这些涌现特性带来的重大技术挑战,例如需要消除错误解决方案(特别是幻觉现象)的方法。该调研强调了混合方法(将传统软件工程技术与大语言模型相结合)在为软件工程开发和部署可靠、高效且有效的基于大语言模型的解决方案中的关键作用。这种方法为将先进的人工智能模型整合到实际软件开发过程中提供了一条有前景的途径。
G. 多模态算法
吴等人[31]通过提供对多模态算法的定义、历史发展、应用和挑战的全面概述,解决了理解多模态算法中的一个重要空白。文章首先定义了多模态模型和算法,然后追溯了它们的历史演变,提供了对其发展和重要性的见解。该论文作为实用指南,涵盖了多模态模型各个技术方面的要点,如知识表示、学习目标的选择、模型构建、信息融合和提示。此外,它还回顾了当前在多模态模型中使用的算法,并讨论了常用的数据集,从而为该领域的未来研究和评估奠定了基础。论文最后探讨了多模态模型的几个应用,并深入研究了从其近期发展中出现的关键挑战,揭示了这些先进计算工具的潜力和局限性。
H. 大语言模型(LLMs)的对齐要求
刘等人[32]提出了一种LLMs对齐要求的分类法,以帮助从业者理解和有效实施对齐维度,并指导数据收集工作,以开发稳健的对齐过程。论文将“有害”生成内容的概念分解为具体类别,如对个人的伤害(如情感伤害、冒犯性和歧视)、社会伤害(包括暴力或危险行为的指令)和对利益相关者的伤害(如影响商业决策的错误信息)。引用Anthropic对齐数据中的不平衡性,论文指出各种伤害类别的代表性不均,如“暴力”的高频率与“儿童虐待”和“自残”的边缘出现。这一观察支持了以下观点:严重依赖数据的对齐技术无法确保LLMs在所有方面均匀地对齐人类行为。作者自己的测量研究表明,尽管模型开发者声称进行了对齐努力,但对齐模型在所有伤害类别中并未持续显示出改进。因此,论文主张建立一个框架,以实现对LLM可信度的更透明、多目标的评估,强调在LLM开发中需要全面和平衡的对齐方法。
I. 知识增强的预训练语言模型
胡等人[33]对知识增强的预训练语言模型(KE-PLMs)进行了全面回顾,这是一个旨在解决标准预训练语言模型(PLMs)在自然语言处理(NLP)中局限性的新兴领域。虽然在大规模文本语料库上训练的PLMs在各种NLP任务中表现出色,但由于缺乏外部知识,它们在推理等领域往往表现不佳。论文重点介绍了如何通过将不同类型的知识融入PLMs来克服这些不足。它为自然语言理解(NLU)和自然语言生成(NLG)引入了不同的分类法,以区分这两个NLP的核心领域。对于NLU,论文将知识类型分为语言知识、文本知识、知识图谱(KG)知识和规则知识。在NLG的背景下,KE-PLMs被分为基于KG和基于检索的方法。通过概述这些分类并探讨KE-PLMs的当前状态,论文不仅提供了对该不断发展领域的清晰见解,还确定了KE-PLMs开发和应用的有前途的未来方向,突显了它们在显著增强PLMs在NLP任务中的能力方面的潜力。
J. 自然语言生成(NLG)中的可控文本生成
张[34]对可控文本生成(CTG)进行了批判性和系统的回顾,这是NLG中一个新兴领域,对于开发适应特定实际约束的高级文本生成技术至关重要。论文重点介绍了使用基于Transformer架构的大规模预训练语言模型(PLMs),这些模型由于能够生成更多样化和流畅的文本,在NLG中确立了新的范式。然而,深度神经网络的可解释性有限,给这些方法的可控性带来了挑战,使得基于Transformer的PLM驱动的CTG成为一个快速发展的具有挑战性的研究领域。论文调查了过去3-4年中出现的各种方法,每种方法针对不同的CTG任务,具有不同的控制约束。它提供了CTG中常见任务、主要方法和评估方法的全面概述,并讨论了该领域的当前挑战和潜在未来方向。声称是第一个从Transformer-based PLMs的角度总结最先进的CTG技术,本文旨在帮助研究人员和从业者跟上CTG的学术和技术发展,为他们提供该领域的深刻景观和未来研究的指南。
K. 大语言模型在网络安全中的应用
张等人[40]研究了LLMs在网络安全中的整合。通过涉及来自领先的安全和软件工程场所的127多篇出版物的广泛文献综述,本文旨在揭示LLMs在增强网络安全措施中的多方面作用。调查指出了LLMs在检测漏洞、分析恶意软件和管理网络入侵和钓鱼威胁中的各种应用。它强调了当前数据集的局限性,这些数据集通常缺乏规模和多样性,从而强调了为这些安全任务量身定制更强大数据集的必要性。论文还确定了有前途的方法,如微调和领域特定的预训练,这些方法可以更好地利用LLMs在网络安全环境中的潜力。
姚等人[9]探讨了LLMs在安全和隐私中的双重角色,强调了它们在增强代码安全和数据保密性方面的优势,并详细说明了潜在的风险和固有漏洞。作者将应用和挑战分为“好的”、“坏的”和“丑陋的”,分别讨论了LLMs的积极影响、它们在攻击性应用中的使用以及它们对特定攻击的脆弱性。论文强调了进一步研究威胁(如模型和参数提取攻击)和新兴技术(如安全指令调整)的必要性,突显了在利用LLMs提高安全性和减轻其风险之间的复杂平衡。
L. 我们的调查与相关调查的比较
本文比之前的文献综述更专业和技术性地探索了生成式人工智能和大语言模型在网络安全中的应用。专注于硬件设计安全、入侵检测系统和软件工程等广泛的网络安全领域,它面向更广泛的专业受众,包括工程师、研究人员和工业从业者。本文回顾了35个领先模型,如GPT-4、BERT、Falcon和LLaMA,不仅突出了它们的应用,还展示了它们的发展轨迹,从而提供了对这些模型在网络安全中当前能力和未来潜力的全面见解。
论文还深入探讨了与LLMs相关的漏洞,如提示注入、对抗性自然语言指令和不安全的输出处理。它展示了复杂的攻击场景和强大的缓解策略,提供了对理解和防范潜在威胁至关重要的详细分析。此外,专门网络安全数据集的生命周期——包括创建、清理、预处理、注释和标记——受到严格审查,提供了对提高数据完整性和实用性的关键见解,以便对LLMs进行训练和测试。这种细节对于开发能够有效利用LLMs力量的强大网络安全解决方案至关重要。
最后,论文探讨了在网络安全环境中部署LLMs的挑战,强调了模型健壮性的必要性和对抗性攻击的影响。它引入了先进的方法,如基于人类反馈的强化学习(RLHF)和检索增强生成(RAG),以增强实时网络安全操作。这一重点不仅描述了LLMs在网络安全中的当前应用状态,还为未来的研究和实际应用设定了方向,旨在优化和保护LLMs在不断变化的威胁环境中的部署。这使得该论文成为任何涉及网络安全和AI的人不可或缺的资源,弥合了学术研究和实际应用之间的差距。
原文有50页,可点击阅读原文查看。
致力于传播价值,分享提高生产力的实践。
如果文章对你有帮助,请关注我们哦👆,谢谢!