一、前言
二、纽约时报的主张
纽约时报主张其刊登的数百万篇文章被用于训练Open AI和微软的生成式AI(如微软Copilot和ChatGPT),《纽约时报》要求Open AI和微软销毁包含侵权材料的模型和训练数据,同时主张法定损害赔偿、实际损害赔偿、利润返还和律师费。
纽约时报认为,用于训练ChatGPT的数据集Common Crawl¹收集了数量庞大的纽约时报文章,而这些文章被用于训练Open AI和微软的生成式AI。通过对比ChatGPT所提供的一些内容,这些内容与《纽约时报》文章几乎一模一样,而这些文章在原本的《纽约时报》中需要付费订阅才能阅读。因此,《纽约时报》主张自身因该行为遭受了订阅、广告和关联收入的损失。
此外,在当前科技发展的阶段,大语言模型(LLMs)始终存在幻觉现象(AI Hallucinations),即生成式AI提供的内容可能是虚构、捏造或拼凑而成的不实信息。生成式AI可能在纽约时报某篇文章基础上添加一些似是而非的内容,除了不真实外也极大地损害了纽约时报在公众心中的信誉和公信力。另外,在生成式AI的训练过程中,也是可能存在侵犯版权的问题,包括但不限于复制权、修改权、汇编权、保护作品完整权等。这些行为可能涉及违反《数字千年版权法》中删除权和修改权的部分,进一步加剧了知识产权的争议。在面临这些问题时,权利保护和法规制定需要更加紧密地结合,以维护合法权益和确保科技发展的可持续性。
再者,纽约时报的一个关键主张是版权所保护的核心在于创作的创新性。而被告在未经授权的情况下使用纽约时报的文章,甚至从中获利,对创作者而言无疑是一次沉重的打击。目前,一些美国新闻媒体采取了措施,通过在网站上添加新的代码,防止ChatGPT扫描他们平台上的内容,其中包括CNN、纽约时报和路透社等。然而,也有一些新闻机构选择与OpenAI进行合作,允许ChatGPT使用或部分使用其内容,如Axel Springer和美联社²等。
二、Open AI的回应
目前为止,Open AI对此的回应是,关于Open AI抓取互联网上大量数据来训练生成式AI,包括纽约时报的文章,应该受到“合理使用”法律原则的保护。“合理使用”法律原则是允许在某些情况下未经许可重复使用材料,包括用于研究和教学。在训练生成式AI时收集数据的情况,收集并使用受版权保护的材料应属于合理使用,“合理使用”的目的和特点是变革性的而不应该是僵化的被限制的。Open AI始终秉持的观点是,认为与制作新闻、写作、作画等为了“人类娱乐(human entertainment)”目的不同,训练生成式AI的目的是学习“人类生成媒体固有的模式(patterns inherent in human-generated media)”³。
另外,也有观点认为纽约时报所提供的证据中存在诱导生成式AI的提问,下图中用户借由询问生成式AI的提问⁴,而让生成式AI回答出纽约时报完整文章的方式,该观点认为此方式得出的结论不应该被认为是侵权的。
四、关于合理使用原则的探讨
在纽约时报对Open AI和微软的起诉案中,双方就合理使用法律原则存在立场冲突,这一原则是知识产权法领域的核心概念,旨在平衡创作者权益与公众合法使用需求。随着生成式AI广泛应用,合理使用原则面临新技术挑战,尤其在训练和输出阶段引入各地创作者数据的情况下,法律体系需审视其适用性。本案将引发对如何维护创作者权益并满足公众合法使用需求的深刻审视。
回溯到2000年6月,RIAA与美国音乐出版协会对Napster提起诉讼,RIAA和音乐出版协会主张Napster会对音乐产业的权益造成了实质性损害。因此,他们请求法院干预并禁止Napster继续非法分享音乐,以维护音乐版权并遏制未经授权的音乐分享行为。该案件最终由美国第九巡回上诉法院对此案作出判决,要求该公司停止把Napster软件透过互联网供人免费下载,理由是该软件让网友透过互联网交换Mp3音乐档,涉及侵犯著作权。Napster案的结论明确了对未经授权的音乐分享行为的法律限制,促使数字音乐服务提供商采取更为合规的经营模式,以确保创作者和权利人的权益得到充分保护。由此可见,因为Napster案的结果导致后续推动了数字音乐服务时更加注重采取合法、授权的形式发展;同时,也为“合理使用”原则在数字音乐领域做出了当下时空背景下的界定,这一过程对数字音乐产业的法规和实践产生了深远的影响。
再回到本案中,若最终由纽约时报胜诉,则可以理解为司法体系在支持创作者权益方面通过强调合理使用原则做后盾,跟随科技的飞速发展进行了有力的调整。法律会积极应对新兴技术的挑战,确保创作者在这个变革时代依然得到充分保护。反面来说也可能引发对合理使用原则在训练生成式AI等新技术挑战时的限制进行详细研究,也有待讨论出合理使用原则在数字时代的适用性,以及是否需要进一步调整法律框架。
然而,若纽约时报败诉,意味着合理使用原则在法律适用中的有其局限性,特别是在涉及生成式AI等新技术、新科技的情境下,需要更加深入的审视和规范。这也突显了法律体系在保障创作者权益的同时,面对科技进步所带来的法律边界挑战,需要不断更新、强化和拓展。
五、案例延伸
六、各国监管现状
在生成式AI的训练阶段,使用大语言模型(LLMs)通常需要大量的数据。如果这些数据未经授权而被使用,就可能涉及侵犯数据提供者的知识产权。此外,生成式AI在输出阶段创造的内容,特别是当其以某种方式模仿或复制了受版权保护的作品时,也可能引发知识产权纠纷。要解决这些问题,需要在法律、道德和科技框架中讨论,进一步明确生成式AI的规范和责任。这可能包括加强数据使用的合法性、明确生成内容的知识产权归属,以及明确生成式AI开发者和使用者的责任。这一领域的法规和准则正不断发展,以适应人工智能技术的快速发展。
现在各国也在努力在法律规范以及科技发展中取得平衡,2023年12月欧盟委员会、欧洲议会和欧盟成员国代表经过数月谈判投票通过《人工智能法案》(AI Act),是全球首份针对AI监管的全面法规。《人工智能法案》采取的态度仅限于最低必要要求⁶,而不会过度限制或阻碍技术发展,让人工智能保持在安全、透明、可追溯等最低必要要求。而2023年7月13日,我国国家互联网信息办公室等七部门联合发布《生成式人工智能服务管理暂行办法》,其中提到AI服务提供者应当“使用具有合法来源的数据和基础模型”,且“不得侵害他人依法享有的知识产权”。由此可见,暂行办法涉及的范围包含了生成式AI训练的过程,同时暂行办法也尽量不过度限制或阻碍技术发展。