首页文章详情

人工智能版权“退出机制”——一个难以兑现的承诺

互联网法律评论2025-11-17 18:54
面对AI公司的数据抓取,“退出机制”看似赋予创作者选择权,实则将维权重担逆向转嫁。本文剖析其如何因技术缺陷、法律冲突与不公负担而沦为“虚假选择”,并指出基于透明授权的“选择加入”才是可持续正道。

编者按

随着生成式人工智能的迅猛发展,如何合法合规地使用海量数据训练模型已成为核心争议。在此背景下,一种名为“退出机制”的方案被提出,即默认允许AI公司使用所有公开数据,仅当版权所有者主动提出反对时才将其排除在外。这一机制看似赋予了创作者选择权,但深入剖析便可发现,它更像一个在技术洪流下难以兑现的“虚假的选择”。

其“虚假性”根植于AI发展的几个内在趋势:数据抓取已从简单的网络爬虫,扩展到智能眼镜等现实捕捉设备,使得基于网址或元数据的传统“退出”手段完全失效;模型训练的一次性、超前性以及合成数据的再利用,意味着事后的“退出”无法抹去作品在前期训练中的贡献,实为对历史侵权的默许;更重要的是,该机制将本应由AI企业承担的“授权”责任,逆向转嫁给了数量庞大且分散的个体创作者,要求他们去完成一项追踪无数AI系统的“不可能任务”。

在人工智能日益渗透各行各业的今天,一个真正尊重创新源头、鼓励公平合作的治理框架,不应建立在如此脆弱的基础之上。推动建立在“选择加入”前提下的透明授权与合作,而非寄望于无效的“退出”,才是引导AI产业健康、可持续发展的正途。

一、法律根基动摇:“退出”颠覆版权“授权”本质

根据《版权法》,版权所有者享有对其受版权保护作品的专有使用权,并有权授权他人使用,本质上是一种选择加入机制。除非存在适用的法律例外情况允许用户在未经版权所有者许可的情况下使用受版权保护的作品(例如合理使用),否则用户必须事先获得版权所有者的授权(即,除非版权所有者选择加入),才能使用该作品。

通常,授权以版权所有者与用户之间的许可协议形式存在。寻求许可的责任理应落在用户身上,之后由版权所有者决定是否授予该用户使用该作品的许可。因此,作为版权使用者,根据法律规定,人工智能公司在使用版权作品前必须获得版权所有者的许可。

然而,许多人工智能公司并未这样做。

人工智能公司提出的选择退出机制,实际上赋予了它们随时随地以任何方式使用受版权保护作品的权利,换句话说,人工智能公司想要颠覆版权的自愿性和专有性,因为征求许可对它们来说很麻烦。

二、技术鸿沟难越:现有工具无法阻止作品“隐形”使用

人工智能模型和系统种类繁多,普通版权所有者根本不可能了解每种人工智能模型和系统的所有退出机制。要求版权所有者识别所有退出机制,并要求他们在每部作品目录中都启用退出功能,这无疑是一项巨大的负担——对于高产创作者而言更是如此。正如埃德•牛顿-雷克斯在这篇文章中详细阐述的那样,“如果你希望大多数人(无论是有意还是无意)忽略退出机制,那么你就应该运行一个退出机制。”

即使版权所有者采取了退出措施来阻止未来通用人工智能抓取其受版权保护的作品,全面退出也是无法实现的,因为受版权保护的作品通常存在于互联网上的多个位置,这使得版权所有者几乎不可能为作品的每个副本都添加退出标识。

例如,一首歌可以在数字流媒体平台上播放,下游衍生作品对受版权保护的作品进行改编、转换和重新创作,这使得为原始作品实施退出措施变得异常困难。在大多数情况下,版权所有者不可能以一种能够为每一个下游使用都正确标记退出信号的方式来阻止通用人工智能抓取和使用作品的方式进行退出。受版权保护的作品在网络上被欣赏和传播的普遍性表明,对作品的合法副本应用退出机制是多么不切实际。

此外,要让用户选择退出非法复制的版权作品几乎是不可能的。众所周知,人工智能公司会抓取、复制并使用从非法来源非法获取的盗版创意作品来训练其通用人工智能模型。即使版权所有者能够选择退出其作品的每个合法副本,这些盗版作品仍然存在,而且不会包含退出选项。除非人工智能公司在不久的将来幡然醒悟,否则即使版权所有者选择退出,它们仍会继续从非法网站抓取这些盗版作品。退出机制无法解决或缓解任何此类问题,也绝对无法赋予版权所有者任何控制权。

三、现实困境重重:海量系统与衍生副本令退出形同虚设

目前已有技术工具和正在开发中的工具,理论上可以帮助版权所有者阻止人工智能机器人和爬虫访问和抓取其受版权保护的作品。然而,如下文详述,这些现有技术工具存在显著局限性,原因在于:

(i) 它们只有在用户选择退出机制得到认可、尊重且不被规避的情况下才能有效;

(ii) 这些工具并非为解决人工智能数据抓取问题而创建,因此实际使用时可能弊大于利。

事实上,在许多情况下,人工智能公司、开发者和其他用户部署的机器人和爬虫经常绕过或无视这些技术工具。以Common Crawl 为例,它经常无视并绕过付费墙机制和其他技术工具,抓取包含受版权保护作品的整个网站,并将其存档,供大型人工智能公司用于训练人工智能模型。

robots.txt 协议是退出机制讨论中经常被提及的技术工具之一。虽然 robots.txt 的确会提醒网络爬虫不要抓取相关的受版权保护的作品,但其效果非常有限。部分原因是它只有在被认可和尊重的情况下才能发挥作用。另一个主要问题在于 robots.txt 协议本身的设计初衷是阻止搜索引擎索引作品,而不是阻止出于人工智能(GAI)目的的网络爬虫。因此,使用 robots.txt 不仅会阻止出于人工智能目的的网络爬虫,还会阻止搜索引擎索引作品。大多数版权所有者不希望他们的作品被抓取并用于人工智能训练,但他们希望自己的作品被搜索引擎抓取——这样他们的作品才能在互联网上被找到,并从他们的创意中获利。robots.txt 的机制不足以区分这两种情况。因此,如果版权所有者想要阻止他们的作品被抓取并用于人工智能训练,他们唯一的选择就是从互联网搜索中彻底删除他们的所有在线信息,这很可能会毁掉他们的生意。

robots.txt 的另一个局限性在于,它并不针对受版权保护的作品本身,而是作用于 URL 或网站层面。这意味着,即使网络爬虫或抓取工具遵守了特定网站的 robots.txt 规则,也无法阻止其抓取或抓取互联网上其他地方存在的受版权保护作品的副本,从而用于人工智能目的。例如,如果受版权保护的作品副本存在于不受版权所有者控制的盗版网站上,而这些网站又没有使用 robots.txt,那么这些副本最终仍然会被包含在训练集中。

值得注意的是,虽然业界正在开展合作,开发更好的工具来专门解决人工智能机器人抓取和窃取的问题,但这些解决方案还处于起步阶段,只是版权所有者在数字环境中有效执行和保护其作品能力的一大难题中的一小部分。

四、利益天平失衡:“二元选择”扼杀合作

大多数选择退出机制都因其固有的二元性而受到限制:作品要么可以使用,要么不能使用。除非版权所有者和人工智能公司就创意作品的使用达成协议,否则双方没有机会协商使用条款。

但根据现行版权法,他们已经可以通过许可协议来实现这一点。目前,由行业主导的创新技术解决方案正在不断开发和探讨,以构建更加灵活的机制,使选择退出机制与付费等其他条款挂钩——但从本质上讲,这使得该机制不再是选择退出机制,而仅仅是许可协议。

正如我们在人工智能许可网页上所展示的,人工智能版权许可市场蓬勃发展,人工智能与创意产业之间涌现出许多富有创意的解决方案、合作关系和协议。人工智能许可市场也催生了一批中小型人工智能公司,这些公司完全依靠与版权所有者在版权法律框架下达成的承诺、合作关系和许可协议来构建其业务。选择加入、基于许可的协议和许可促成了人工智能与创意产业之间合作关系的增加,而非减少。相反,选择退出机制则完全缺乏创新,因为它假定人工智能训练必然是一场零和博弈——扼杀了创造力和创新,阻碍了人工智能的创新。

五、选择退出机制违反了国际条约义务

在通用人工智能领域实施选择退出机制的法律制度,尤其是在法律例外情况下,可能违反《伯尔尼公约》规定的国际条约义务。

《伯尔尼公约》是一项重要的国际版权条约,拥有182个缔约国。该公约第五条规定,版权保护不得受制于形式主义。选择退出机制恰恰是一种形式主义。根据《伯尔尼公约》,选择退出机制,特别是那些在通用人工智能相关版权例外情况下实施的选择退出机制,使得版权所有者行使和享有专有权的前提条件是必须履行选择退出这一不可接受的形式主义义务。

任何国家的版权制度都不应允许此类机制存在。

六、严格执行透明度和追责机制,否则选择退出机制是无效的

无论退出机制在通用人工智能的采集和训练中可能具有何种效用,如果没有相应的透明度标准或强制执行退出机制并追究人工智能公司责任的义务,那么它将完全失效。

提供退出机制的人工智能公司并没有真正对版权所有者承担确保这些系统有效运行的义务。对人工智能公司施加透明度义务对于以负责任、尊重和合乎道德的方式开发和使用的人工智能生态系统至关重要。如果人工智能公司提供退出机制是为了确保人工智能模型以这种方式开发和使用,并确保权利得到尊重,那么它们就不应该回避披露其用于训练的受版权保护的作品。透明度措施确保人工智能公司提供的任何退出机制或立法要求的任何退出机制都尊重创作者和版权所有者的权利。

鉴于上述原因,选择退出机制不应是强制性的。然而,自愿通知机制或许可以发挥作用,允许版权所有者通知人工智能公司,他们不希望该公司使用其作品。当版权所有者通知人工智能公司(或其他用户)其作品不得用于通用人工智能(GAI)训练时,无论通知形式如何,人工智能公司(和用户)都必须尊重这些异议。如果人工智能公司无视选择退出通知,违反该通知抓取、导入或以其他方式使用受版权保护的作品,则该人工智能公司或开发者应承担故意侵权责任,并根据《版权法》受到更高的损害赔偿。

出路在于授权:从“虚假退出”转向“透明许可”

前Stability AI高管、现任Fairly Trained首席执行官Ed Newton-Rex 列举了选择退出机制只是一种虚假的“选择”的十大理由(见附件)。简言之,选择退出机制行不通。它们破坏了版权法的基本原则,并抑制了创意和科技领域的真正创造力和创新。

选择退出并非解决之道。真正的解决之道始终在于尊重创作者和版权所有者的权利,以及他们是否以及如何行使这些权利。这并非像选择退出机制那样损害这些权利,而是鼓励通过版权许可来开发和训练生成式人工智能模型。这种解决方案,而非选择退出,才是确保人工智能产业蓬勃发展并与创意经济相辅相成的最佳途径。

附件:

Stability AI高管、现任Fairly Trained首席执行官Ed Newton-Rex 在《生成式人工智能选择退出的不可克服的问题》文章中,从十个方面详细论证了与本文作者一致的观点:

1、无法控制作品的衍生副本: 基于网址或元数据的退出机制,对于散布在互联网各处、不受创作者控制的衍生副本(如社交媒体截图、嵌有作品的广告等)完全无效。

2、大多数人会错过退出机会: 实证数据显示,退出机制的使用率极低,并非因为创作者同意,而是因为他们根本不知道退出机制的存在或错过了短暂的申请窗口。

3、“非黑即白”的二元选择损害权益: 退出机制是二元的(允许或禁止),这迫使版权持有者无法区分“允许AI搜索索引”和“允许AI训练模型”。若选择退出训练,可能意味着其内容也无法被搜索引擎发现,从而损害自身流量和收入。

4、新兴技术使退出机制失效: 智能眼镜等设备通过现实世界捕捉数据进行训练,这类数据不经过网络爬虫,也无法附加元数据,使得现有任何退出机制都形同虚设。

5、网络爬虫的快速变化令人难以应对: AI公司不断推出新的爬虫工具,版权持有者疲于奔命,永远存在时间差,无法及时阻止所有不希望其使用数据的公司。

6、变相赦免历史侵权行为并持续受益: 退出机制通常在AI模型训练完成后才引入,这等于默许了之前的未经授权使用。而且,即使未来不再直接使用退出作品,AI公司仍可利用基于这些作品生成的合成数据来训练新模型,从而持续受益。

7、退出所有作品的行政负担巨大: 创作者的作品通常分散在众多平台且历时长久,逐一为每部作品执行退出操作是一项几乎不可能完成的繁重任务。

8、退出期限给版权持有者带来不当压力: 退出机制通常有截止日期,迫使版权持有者在信息不完整的情况下仓促决策,若错过窗口,其作品将在下一个训练周期前被合法使用。

9、退出后果难以理解,降低使用意愿: 由于对退出机制的后果(如对搜索引擎排名的影响)缺乏了解,许多版权持有者会犹豫不决,从而降低了退出率。

10、对小创作者更不公平: 资源有限的小型创作者和个人艺术家更无力追踪和应对各种退出机制,导致他们处于更不利的地位。

本文来自微信公众号“Internet Law Review”,作者:瑞秋·金,36氪经授权发布。