AI智能体集体感染了“艾滋病”

在空战格斗中,有一个经典概念叫“OODA循环”(OODA Loop)。这个由美国空军上校约翰·博伊德(John Boyd)提出的决策框架——观察(Observe)、调整(Orient)、决策(Decide)、行动(Act)——是飞行员在瞬息万变的缠斗中赖以生存的法宝。谁能更快地完成这个循环,谁就能“进入对手的OODA循环内”,在他还在“调整”时,你已经“行动”了。

几十年来,这个模型从军事领域渗透到商业,再到人工智能(AI)和机器人学。一个AI智能体(Agentic AI),就像一个飞行员,在一个不断变化的环境中迭代执行这个循环,以完成其目标。Anthropic 对此的定义是:“AI智能体是循环使用工具的模型。”

然而,我们正面临一个严峻的现实:当AI的OODA循环被深度嵌入到开放的、充满敌意的、内容被高度污染的互联网中时,这个曾经的制胜法宝,正变成它最致命的“病根”。

AI智能体的“艾滋病”:信任成为AI架构缺陷

博伊德的经典OODA模型有一个隐含的前提:飞行员的“观察”,例如雷达读数、仪表盘、肉眼视野是可信的。传统AI也继承了这一点,它们假设传感器是可信的,环境是可控的。

但Agentic AI(智能体AI)彻底打破了这一前提。

现代AI的OODA循环是“开放式”的。它不仅执行循环,还将不可信的行动者(actors)嵌入了循环内部。

当一个大语言模型被授权调用工具和访问网络(如RAG,检索增强生成)时:它的“观察”对象是整个互联网,一个天然对抗( inherently adversarial)的环境。它的“调整”过程依赖的语料库,可能早已被投毒。它的“行动”所调用的API,可能通向陷阱。

2022年,西蒙·威利森(Simon Willison)指出了一个幽灵般的漏洞:“提示词注入”(Prompt Injection)。它的可怕之处在于,AI混淆了“可信的指令”和“不可信的输入”。

这不仅仅是一个简单的过滤问题,而是一个架构性缺陷。现代AI的强大之处,在于它对所有输入(无论是指令还是数据)一视同仁地处理;而这,也正是它最脆弱的地方。它缺乏经典计算中“代码”与“数据”之间的严格界限,没有权限分离。

这就像一种数字“自身免疫性疾病”

在生物学中,一些免疫疾病源于“分子拟态”(molecular mimicry)——免疫系统无法区分“自我”(健康细胞)和“非我”(病原体),最终T细胞转而攻击自身组织。

AI正表现出同样的识别失败。“提示词注入”就是一种“语义拟态”(semantic mimicry):恶意指令伪装成合法提示,触发AI的自我妥协。

这个漏洞不是一个Bug,而是AI的核心功能(遵循自然语言指令)被正确利用的结果。用一个更悚然的比喻:它如同癌细胞,其恶性行为与正常功能共享着同一套生物机制。

四个阶段的全面失陷

当对手不再需要“更快”,而是可以直接“进入”你的OODA循环内部时,整个决策链条在每一刻都面临崩溃。

1. 观察(Observe):被欺骗的感官

AI的“感官”缺乏身份验证和完整性。风险包括对抗性样本(一张贴纸就能让计算机视觉系统“失明”)、提示词注入(一段文本就能让LLM“叛变”)和传感器欺骗。观察层本身就是不可信的。

2. 调整(Orient):被投毒的世界观

这是更隐蔽的攻击。对手可以在模型部署前数月甚至数年,通过训练数据投毒语义后门来污染模型的“世界观”。模型的“调整”阶段——它对现实的理解——从一开始就是扭曲的。这些被编码的行为,只等一个特定的“触发词”来激活。

3. 决策(Decide):被腐蚀的心智

攻击者可以通过微调攻击、奖励破解(Reward Hacking)等手段,直接腐蚀AI的“决策”逻辑本身。决策过程不再服务于预设目标,而是服务于攻击者的载荷。模型甚至可能被操纵,转而优先信任恶意的信源。

4. 行动(Act):被劫持的双手

这是风险的最终兑现。当AI被赋予调用工具(如API)的能力时,攻击面被成倍放大。工具的描述本身就可以成为注入载体。AI只能验证工具的“语法”(syntax),却无法验证其“语义”(semantics)。

一个被污染的Agent,收到的指令可能是“提交SQL查询”,但它实际执行的可能是“泄露整个数据库”。

AI安全的“不可能三角”

AI的安全问题还具有“时间不对称性”。攻击者可以在训练时埋下“炸弹”,在部署数年后引爆。每一次推理(inference)都会“从头开始”,同样脆弱,但模型中“冻结”的完整性破坏却无法被审计。

更糟的是,AI正变得“有状态”——聊天历史、键值缓存(cache)的存在,使得妥协得以“累积”。每一次迭代都可能是恶意的,缓存投毒会跨交互持续存在。

这就像计算机科学的经典攻击“信任之上的信任”(Trusting Trust):被投毒的状态产生被投毒的输出,而这又会污染未来的状态。

  • 试图总结对话历史? 总结里会包含恶意注入。
  • 清除缓存以移除病毒? 你会丢失所有上下文。
  • 保留缓存以维持连续性? 你也保留了污染。

记忆,变成了负债。

我们因此陷入了“AI智能体安全不可能三角”:快速、智能、安全,三者最多只能取其二。

  • 快速 + 智能: 你无法验证你的输入,因为AI本身不能被用于验证(它已被腐蚀)。
  • 智能 + 安全: 你必须缓慢地检查一切,牺牲速度。
  • 安全 + 快速: 你只能使用功能被严格限制的“笨”模型。

博伊德的飞行员受物理定律的保护——雷达回波不会在物理学上撒谎。而AI的“语义观察”则没有任何物理约束,文本可以声称任何事,图像可以展示不可能之物。

如何校验思想?“语义完整性”不应是功能而是架构

我们正面临一个根本性的难题。AI必须将复杂的现实“压缩”为模型可读的形式,而对手恰恰在攻击这个“压缩”过程——他们不必攻击“领土”,只需攻击“地图”。

在传统的网络安全中,我们假设恶意代码看起来与合法指令不同。但在AI的OODA循环中,攻击使用的是系统的母语。攻击就是正常操作。

我们迫切需要“语义完整性”(semantic integrity):不仅验证数据,还要验证“解释”;不仅验证内容,还要验证“上下文”;不仅验证信息,还要验证“理解”。

我们可以对数据进行校验和(checksum),可以对代码进行签名,可以审计日志。但是,你如何去校验一个“思想”?你如何去签署“语义”?你如何去审计“注意力”?

目前看来,为时已晚。我们已经构建了一个默认“信任一切”的系统,现在却寄希望于一个“语义防火墙”来保护它。

我们为了追求“快速”和“智能”,而放弃了“安全”。我们为了访问互联网规模的数据,而放弃了确保信任。

对手并非“意外”进入了AI的OODA循环;对手是靠“架构”被请进去的。当AI的能力与它的攻击面完全相同时,完整性就不是一个可以后续添加的“功能”,它是一种必须在最初就做出的“架构选择”。

而我们,似乎已经做出了相反的选择。

参考链接:

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

升华安全佳,安全看世界。GoUpSec以国际化视野服务于网络安全决策者人群,致力于成为国际一流的调研、分析、媒体、智库机构。