GPT-4可自动化利用漏洞,成功率高达87%
网络安全研究传来令人担忧的消息:伊利诺伊大学厄巴纳-香槟分校 (UIUC) 的最新研究表明,人工智能 (AI) 大语言模型 (LLM) 正变得愈发强大,可能被黑客用于漏洞的自动化利用。
以往,网络攻击者主要使用大型语言模型实施网络钓鱼攻击,编写一些基础恶意软件,以及辅助开展其他辅助性网络犯罪活动。然而,这项研究表明,如今的黑客只需使用最新的 GPT-4 大语言模型以及开源框架,就能够轻而易识别并利用刚被披露的公开漏洞发动攻击。
研究人员之一的丹尼尔·康 (Daniel Kang) 坦言:“我并不确定我们的研究案例能否真正帮助阻止此类威胁,但我认为网络威胁只会愈演愈烈。因此,强烈建议各大机构切实遵循网络安全最佳实践。”
GPT-4 vs. 常见漏洞枚举 (CVE)
为了评估大语言模型能否用于攻击现实世界的系统,由四名 UIUC 研究人员组成的团队首先需要测试对象。
他们的人工智能代理包含四个部分:提示符、基础大型语言模型、框架(本例中使用的是 LangChain 实现的 ReAct),以及终端和代码解释器等工具。
该代理程序在 15 个已知开源软件 (OSS) 漏洞上接受了测试,其中包括影响网站、容器和 Python 包的漏洞,还有 8 个漏洞的通用漏洞评分系统 (CVSS) 评分为 “高” 或 “危急”。测试的漏洞中,有 11 个是在 GPT-4 接受训练后才被披露的,这表示这是该模型首次接触这些漏洞。
仅依靠漏洞通告,AI 代理就需要逐个尝试利用这些漏洞。实验结果令人震惊。
在接受评估的 10 个模型(包括 GPT-3.5、Meta 的 Llama 2 Chat 等)中,有 9 个甚至连一个漏洞都无法攻破。
然而,GPT-4 成功利用了其中的 13 个漏洞,占总漏洞数的 87%。
它仅在两个非常偶然的情况下未能成功利用漏洞:CVE-2024-25640 是 Iris 事件响应平台的一个漏洞 (CVSS 评分为 4.6),由于该漏洞利用过程中需要以一种模型无法处理的方式导航 Iris 的应用程序,因此逃脱了攻击。
另一个未被攻破的漏洞是 CVE-2023-51653,这是一个评分为 9.8 的 “危急” 漏洞,存在于 Hertzbeat 监控工具中。研究人员推测,GPT-4 未能利用该漏洞是因为漏洞描述是用中文书写的。
康解释说:“GPT-4 在许多任务上都优于其他模型,这包括标准基准测试 (MMLU 等)。GPT-4 在计划方面似乎也更加出色。遗憾的是,由于 OpenAI 没有公布其训练细节,我们无法确定原因。”
GPT-4 的双刃剑
尽管恶意大型语言模型听起来很可怕,但康表示:“目前,这并不会解锁人类专家无法做到的全新功能。因此,我认为随着恶意分子开始越来越多地利用人工智能代理,各机构应切实遵循网络安全最佳实践,以避免被黑。”
如果黑客开始利用大型语言模型代理来自动攻击公开漏洞,那么企业将无法再消极等待漏洞补丁的发布(如果有的话)了。他们甚至可能不得不用上与攻击者相同的 LLM 技术来对抗他们。
不过,安全研究人员 Henrik Plate 警告称,即使是 GPT-4,也离成为完美的安全助手还有一段距离。在最近的实验中,Plate 让 ChatGPT 和谷歌的 Vertex AI 识别恶意或良性的开源软件样本,并为其分配风险评分。
在解释源代码和评估可读代码时,GPT-4 的表现优于所有其他模型,但所有模型都产生了一些误报和漏报。
例如,代码混淆就让大型语言模型犯了难。“对于大型语言模型来说,混淆后的代码看起来常常像是故意混淆,旨在让人工审查难以理解。但很多情况下,这只是出于合法目的而缩减了代码大小,”Plate 解释道。
“尽管基于大型语言模型的评估不应该取代人工审查,” Plate 在一份报告中写道,“但它们肯定可以用作额外的信号和人工审查的输入。特别是,它们可以用来自动审查大量来自误报检测器产生的恶意软件信号(否则这些信号在审查能力有限的情况下可能会被完全忽略)。”
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: