AI智能体集体感染了“艾滋病”

作者： GoUpSec
2025年10月27日
动态, 安全

在空战格斗中，有一个经典概念叫“OODA循环”（OODA Loop）。这个由美国空军上校约翰·博伊德（John Boyd）提出的决策框架——观察（Observe）、调整（Orient）、决策（Decide）、行动（Act）——是飞行员在瞬息万变的缠斗中赖以生存的法宝。谁能更快地完成这个循环，谁就能“进入对手的OODA循环内”，在他还在“调整”时，你已经“行动”了。

几十年来，这个模型从军事领域渗透到商业，再到人工智能（AI）和机器人学。一个AI智能体（Agentic AI），就像一个飞行员，在一个不断变化的环境中迭代执行这个循环，以完成其目标。Anthropic 对此的定义是：“AI智能体是循环使用工具的模型。”

然而，我们正面临一个严峻的现实：当AI的OODA循环被深度嵌入到开放的、充满敌意的、内容被高度污染的互联网中时，这个曾经的制胜法宝，正变成它最致命的“病根”。

AI智能体的“艾滋病”：信任成为AI架构缺陷

博伊德的经典OODA模型有一个隐含的前提：飞行员的“观察”，例如雷达读数、仪表盘、肉眼视野是可信的。传统AI也继承了这一点，它们假设传感器是可信的，环境是可控的。

但Agentic AI（智能体AI）彻底打破了这一前提。

现代AI的OODA循环是“开放式”的。它不仅执行循环，还将不可信的行动者（actors）嵌入了循环内部。

当一个大语言模型被授权调用工具和访问网络（如RAG，检索增强生成）时：它的“观察”对象是整个互联网，一个天然对抗（ inherently adversarial）的环境。它的“调整”过程依赖的语料库，可能早已被投毒。它的“行动”所调用的API，可能通向陷阱。

2022年，西蒙·威利森（Simon Willison）指出了一个幽灵般的漏洞：“提示词注入”（Prompt Injection）。它的可怕之处在于，AI混淆了“可信的指令”和“不可信的输入”。

这不仅仅是一个简单的过滤问题，而是一个架构性缺陷。现代AI的强大之处，在于它对所有输入（无论是指令还是数据）一视同仁地处理；而这，也正是它最脆弱的地方。它缺乏经典计算中“代码”与“数据”之间的严格界限，没有权限分离。

这就像一种数字“自身免疫性疾病”。

在生物学中，一些免疫疾病源于“分子拟态”（molecular mimicry）——免疫系统无法区分“自我”（健康细胞）和“非我”（病原体），最终T细胞转而攻击自身组织。

AI正表现出同样的识别失败。“提示词注入”就是一种“语义拟态”（semantic mimicry）：恶意指令伪装成合法提示，触发AI的自我妥协。

这个漏洞不是一个Bug，而是AI的核心功能（遵循自然语言指令）被正确利用的结果。用一个更悚然的比喻：它如同癌细胞，其恶性行为与正常功能共享着同一套生物机制。

四个阶段的全面失陷

当对手不再需要“更快”，而是可以直接“进入”你的OODA循环内部时，整个决策链条在每一刻都面临崩溃。

1. 观察（Observe）：被欺骗的感官

AI的“感官”缺乏身份验证和完整性。风险包括对抗性样本（一张贴纸就能让计算机视觉系统“失明”）、提示词注入（一段文本就能让LLM“叛变”）和传感器欺骗。观察层本身就是不可信的。

2. 调整（Orient）：被投毒的世界观

这是更隐蔽的攻击。对手可以在模型部署前数月甚至数年，通过训练数据投毒或语义后门来污染模型的“世界观”。模型的“调整”阶段——它对现实的理解——从一开始就是扭曲的。这些被编码的行为，只等一个特定的“触发词”来激活。

3. 决策（Decide）：被腐蚀的心智

攻击者可以通过微调攻击、奖励破解（Reward Hacking）等手段，直接腐蚀AI的“决策”逻辑本身。决策过程不再服务于预设目标，而是服务于攻击者的载荷。模型甚至可能被操纵，转而优先信任恶意的信源。

4. 行动（Act）：被劫持的双手

这是风险的最终兑现。当AI被赋予调用工具（如API）的能力时，攻击面被成倍放大。工具的描述本身就可以成为注入载体。AI只能验证工具的“语法”（syntax），却无法验证其“语义”（semantics）。

一个被污染的Agent，收到的指令可能是“提交SQL查询”，但它实际执行的可能是“泄露整个数据库”。

AI安全的“不可能三角”

AI的安全问题还具有“时间不对称性”。攻击者可以在训练时埋下“炸弹”，在部署数年后引爆。每一次推理（inference）都会“从头开始”，同样脆弱，但模型中“冻结”的完整性破坏却无法被审计。

更糟的是，AI正变得“有状态”——聊天历史、键值缓存（cache）的存在，使得妥协得以“累积”。每一次迭代都可能是恶意的，缓存投毒会跨交互持续存在。

这就像计算机科学的经典攻击“信任之上的信任”（Trusting Trust）：被投毒的状态产生被投毒的输出，而这又会污染未来的状态。

试图总结对话历史？ 总结里会包含恶意注入。
清除缓存以移除病毒？ 你会丢失所有上下文。
保留缓存以维持连续性？ 你也保留了污染。

记忆，变成了负债。

我们因此陷入了“AI智能体安全不可能三角”：快速、智能、安全，三者最多只能取其二。

快速 + 智能： 你无法验证你的输入，因为AI本身不能被用于验证（它已被腐蚀）。
智能 + 安全： 你必须缓慢地检查一切，牺牲速度。
安全 + 快速： 你只能使用功能被严格限制的“笨”模型。

博伊德的飞行员受物理定律的保护——雷达回波不会在物理学上撒谎。而AI的“语义观察”则没有任何物理约束，文本可以声称任何事，图像可以展示不可能之物。

如何校验思想？“语义完整性”不应是功能而是架构

我们正面临一个根本性的难题。AI必须将复杂的现实“压缩”为模型可读的形式，而对手恰恰在攻击这个“压缩”过程——他们不必攻击“领土”，只需攻击“地图”。

在传统的网络安全中，我们假设恶意代码看起来与合法指令不同。但在AI的OODA循环中，攻击使用的是系统的母语。攻击就是正常操作。

我们迫切需要“语义完整性”（semantic integrity）：不仅验证数据，还要验证“解释”；不仅验证内容，还要验证“上下文”；不仅验证信息，还要验证“理解”。

我们可以对数据进行校验和（checksum），可以对代码进行签名，可以审计日志。但是，你如何去校验一个“思想”？你如何去签署“语义”？你如何去审计“注意力”？

目前看来，为时已晚。我们已经构建了一个默认“信任一切”的系统，现在却寄希望于一个“语义防火墙”来保护它。

我们为了追求“快速”和“智能”，而放弃了“安全”。我们为了访问互联网规模的数据，而放弃了确保信任。

对手并非“意外”进入了AI的OODA循环；对手是靠“架构”被请进去的。当AI的能力与它的攻击面完全相同时，完整性就不是一个可以后续添加的“功能”，它是一种必须在最初就做出的“架构选择”。

而我们，似乎已经做出了相反的选择。

参考链接：

Agentic AI’s OODA Loop Problem


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    2026年网络安全人士保住饭碗的三大新技能
                                      社交媒体正在沦为“数字鬼城”
                                      最好的五个AI内容检测工具深度评测
                                      IDC：2029年AI市场规模将达1.3万亿美元
                                      Visa把你的信用卡交给AI，一场4.6万亿美元的支付革命还是潘多拉魔盒？
                                      AI安全的头号威胁：供应链风险
                                      安全团队废了？2025年AI安全四大痛点
                                      顶级大模型的“脑容量”只有1TB？
                  



标签： AI安全, AI智能体