AI版权原罪坐实:大模型可完整“复述”小说内容

长期以来,AI 公司在法庭和监管机构面前坚称,模型内部并不存在训练数据中版权内容的副本。但现实测试表明,这些大模型牢牢记住了版权内容,成了不折不扣的“盗版机器”。
硅谷的科技巨头们一直试图让我们相信,人工智能大模型就像一位博览群书的天才少年:它阅读人类的文明,汲取其中的逻辑与灵感,最终“进化”出独立创作的能力。在这个宏大的叙事中,版权作品只是它成长的“养料”,而非被存储在硬盘里的“复本”。
然而,最近一系列来自顶级学府的研究报告,像是一记响亮的耳光,击碎了这种温情的幻象。
“过目不忘”的代价
斯坦福大学与耶鲁大学的研究人员发现,包括 OpenAI、谷歌、Meta、Anthropic 和 xAI 在内的全球顶尖 AI 模型,其“记忆力”远超此前所有人的预期。
在实验中,研究者通过特定的提示词引导,成功让这些模型“复述”出了《哈利·波特与魔法石》、《饥饿游戏》及《霍比特人》等 13 部畅销书的长篇段落。数据令人心惊:谷歌的 Gemini 2.5 以极高的准确率吐出了《哈利·波特》第一部 76.8% 的内容;马斯克旗下的 Grok 3 紧随其后,复述比例达到了 70.3%。而 Anthropic 的旗舰模型 Claude 3.7 Sonnet,在被解除安全限制(越狱)后,几乎能够近乎逐字逐句地还原整部小说。
这种现象在学术界被称为“记忆机制”(Memorization)。长期以来,AI 公司在法庭和监管机构面前坚称,模型内部并不存在训练数据的副本。谷歌曾在 2023 年致美国版权局的信中言之凿凿:“模型本身并不存在训练数据的任何复本,无论是文本、图像还是其他格式。”
但现实给出的反馈是,这些大模型不仅记住了,而且记到了骨子里。伦敦帝国理工学院计算机教授 Yves-Alexandre de Montjoye 指出,证据显示这种“记忆”比之前想象的要普遍得多。这不仅仅是一个技术 Bug,它触及了 AI 产业的“原罪”——如果模型可以完整输出版权作品,那么所谓的“学习”与“抄袭”之间的界限,究竟在哪里?
全球AI版权侵权典型司法判例:
| 案件名称/被告 | 核心争议点 | 关键事实/法律认定 | 裁决结果/当前进展 | 行业影响 |
| GEMA(德国音乐著作权协会)诉 OpenAI | 歌词复述与存储 | 模型能够精准复述受版权保护的歌词,被判定为“记忆”而非单纯的“学习”。 | 败诉/地标性裁决:2024年11月德国法院认定OpenAI侵权。 | 确立了欧盟境内模型“记忆”功能即构成侵权的法律先例。 |
| Anthropic 版权侵权案 (涉及《纽约时报》等引用) | 盗版数据集与存储 | 法院区分了“训练(转化性使用)”与“存储(侵权)”的行为。 | 和解:因被认定存储盗版作品属于“不可救药的侵权”,Anthropic支付约15亿美元达成和解。 | 明确了AI公司不仅要为输出负责,也要为训练数据来源的合法性负责。 |
| 《纽约时报》诉 OpenAI & 微软 | 近乎逐字的复述 | 证据显示模型能逐字生成《纽约时报》的付费墙内容。 | 审理中:原告要求销毁包含侵权内容的模型。 | 挑战大模型“转化性使用”的防御策略,可能导致AI行业重写商业模式。 |
| 美国作家协会 (Authors Guild) 等诉 OpenAI | 小说内容的衍生创作 | 包含乔治·R·R·马丁在内的作家指控AI未经授权使用其小说训练,并能生成高质量续写。 | 审理中:涉及数千名作家的集体诉讼。 | 聚焦于AI对人类创造力市场的“替代效应”以及衍生作品的版权归属。 |
| Sarah Silverman 等诉 Meta & OpenAI | 非法获取训练书籍 | 指控公司通过非法“影子库”(如Library Genesis)获取受版权保护的书籍。 | 部分驳回/继续审理:关于“衍生作品”的指控被部分驳回,但“直接侵权”仍在审理。 | 迫使AI公司透明化其训练数据集的来源。 |
消失的“合理使用”
在版权法的世界里,AI 公司最强大的护身符是“合理使用”(Fair Use)。他们辩称,大模型对版权作品的处理是“转化性”的,即将原始文本转化为意义深远的全新事物。
然而,当一个模型可以完整背诵出 J.K. 罗琳的小说时,这种“转化性”便显得极其苍白。法律专家告诉《金融时报》,这种“复述”能力将对 AI 巨头们在全球范围内的版权官司产生毁灭性影响。
分水岭已经出现。去年,美国法院虽然认可了 Anthropic 利用版权内容训练模型具有一定的“转化性”,但同时裁定,存储盗版作品是“天生且不可救药的侵权行为”。最终,Anthropic 为此支付了 15 亿美元的巨额和解金。而在德国,OpenAI 因模型能背诵歌词而被判侵权,这一裁决被视为欧盟版权监管的里程碑。
尽管 Anthropic 辩解称,“越狱”提取文本对普通用户而言过于繁琐,且成本高于直接购书,但这显然无法消解法律上的合规性焦虑。正如 de Montjoye 教授所言,AI 实验室之所以设置重重护栏防止数据被提取,本身就说明他们深知问题的严重性。
从此前的判例中可以看出,关于AI侵权的判定,法律界正在达成一种新共识:
- “学习”不等于“存储”:如果大模型仅仅是提取逻辑和模式(类似人类阅读),通常被视为合理使用;但如果模型能“复述”(Regurgitate)原文,则被视为非法存储复本。
- “越狱”不能豁免:即使是通过非正常手段(如Jailbreak)提取出的内容,也被视为模型内部存在侵权副本的证据。
- 从“过程”转向“结果”:早期的诉讼纠结于训练过程是否侵权,现在的诉讼重点正转向模型输出结果是否与原件“实质性相似”。
技术的边界与人类的底线
这种“数字记忆”的溢出效应,正在从文学领域蔓延到医疗和教育等更敏感的角落。如果模型能记住畅销书,它是否也会在不经意间泄露训练集里的私人病历或学生档案?
更深层的追问来自于芝加哥大学计算机教授赵燕斌(Ben Zhao)。他提出了一个令人深思的问题:为了制造最尖端的模型,我们真的必须动用那些受版权保护的作品吗?
“无论技术上能否实现,我们仍需自问:我们应该这样做吗?”赵教授认为,法律最终应当坚守阵地,成为这场权力博弈的仲裁者。
在 AI 浪潮的席卷下,我们似乎正处于一个奇特的时代:机器拥有了人类难以企及的记忆力,却缺乏对“所有权”最基本的尊重。当大模型在深夜的对话框里精准地吐出那些伟大小说的句子时,它不仅仅是在复述文字,更是在拷问这个时代的创新逻辑——如果一种智慧的诞生必须建立在对前人创造力的掠夺之上,那么这种智慧究竟是文明的曙光,还是一场精美的剽窃?
这场关于“记忆”与“版权”的战争才刚刚开始,而判决的结果,将决定未来几十年人类创造力的尊严。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章:





