2024年春节刚过,美国OpenAI公司(“OpenAI”)推出的Sora文生视频模型(“Sora”)再次引爆了科技圈,甚至被评价为不亚于2023年的GPT3.5时刻。Sora模型可以通过输入文本提示词生成一段长达60秒的高保真视频(Sora的主流竞品生成的视频基本还停留在4秒左右),且在生成视频中展现了模型对于真实物理世界规律的一定理解能力。Sora模型的推出,在重塑内容创作领域生产关系的同时,同时也引发了内容创作者对版权问题的群体性担忧。本文将基于Sora类生成式人工智能模型(“模型”)对内容素材(训练数据)的使用,结合国内外的司法实践,探讨模型相关的版权问题。由于篇幅限制的原因,本文将分成上下两篇。上篇将围绕对于Sora运行机制的简单介绍以及对于模型在训练阶段遇到的版权问题进行探讨。下篇将主要针对模型在应用(内容输出)阶段的版权问题以及各模型企业可以采取的防控措施进行分析和介绍。
Open AI在Sora推出不久后,就发布了Sora的技术报告¹。根据该技术报告,我们得知Sora是一款基于Transformer架构的扩散模型。扩散模型常用于文生图和图生图领域(例如著名的文生图Stable Diffusion模型就是基于扩散模型架构),通过对训练图像添加随机高斯噪声并且进行反向去除噪声的过程,模型学习到生成图片的方法。Transformer架构是一种神经网络架构,该架构主要通过自注意力机制和归一化机制,根据上下文动态地调整对不同词序列的关注度,从而更好地理解上下文的关系。Transformer架构之前在自然语言处理领域取得了巨大的成功,OpenAI的GPT系列和Google的BERT系列都是基于此架构。Transformer架构也可以被用于计算机视觉领域。它能够捕捉图像中不同位置之间的关系,从而提升了模型在图像数据上的表现。Sora就是将Transformer架构运用在了文生视频(图)领域。
尽管OpenAI在技术报告中隐去了很多关键细节,我们看到Sora的运行过程可以概括如下:1. 模型训练阶段:(1) 首先,根据技术报告,Sora借鉴了GPT的成功经验,将训练用的原始视频库素材将压缩并转换成不同的时空图块(Patches)。Patches类似大语言模型中的单词(Token),是一些抽象出来的带有时间和空间信息的图像块。
注:Sora将原始训练视频转换成Patches,详见技术报告。
(2)其次,Sora将加了随机高斯噪声的Patches以及提示词(Prompts)作为条件输入到基于Transformer架构的扩散模型中,并通过多次计算来学习和预测生成去除噪后的Patches。在学习的过程中,模型将学到的Patches之间的特征、结构和关系内化为模型参数,供后续内容生成时调用。
注:Sora将添加了噪声的视频文件逐步预测还原生成新的视频文件,详见技术报告。
2.模型应用阶段:(1)首先,用户输入提示词后,Sora会通过GPT4将用户输入的简短的提示词扩写为符合模型生成规律的更长的提示词。(2)其次,Sora将增强后的提示词输入到OpenAI已经预训练好的一个文本和图像的对齐模型(CLIP模型),该模型会将提示的文本和图像或视频关联并输出结果。Sora将输出结果和加了噪声的Patches作为条件共同输入到基于Transformer架构的扩散模型中进行推理。
(3)最后,通过解码器将推理的结果重新映射回像素空间,生成视频或图像。
注:上图为来自微软研究院和理海大学的团队发布的Sora深度研究论文《Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models》²中通过逆向工程推导的Sora的可能架构。
因为Sora之类的模型在训练和应用阶段对数据的使用方式、参与的角色和生成方式不尽相同,所以本文将分成上下两篇对不同过程涉及的版权问题进行分别分析。下文是就模型训练过程中的版权问题进行分析。
目前,模型训练阶段大部分的版权争议主要发生在未经授权使用版权方的数据进行模型训练的行为。早在2022年11月起,美国法院就陆续受理多起与模型相关的版权纠纷。例如,2023年12月27日,纽约时报就起诉了OpenAI和微软公司,声称这两家公司非法复制了数百万篇《纽约时报》文章进行模型训练。另外,多位艺术家以及Getty Images也分别起诉了Stability AI,声称Stability AI未经允许抓取了他们受版权保护的多件作品作为模型训练素材,构成版权侵权。被起诉的AI公司往往会援引合理使用进行抗辩。截至今日,美国法院并没有就前述案件做出任何实质性判决。为进行模型训练,AI公司无法避免需要对原始训练数据进行获取、下载、存储、筛选、标注等一系列的数据处理活动。Sora的训练过程还涉及到对原始数据的压缩和转化(成Patches)。上述活动仅有获取、下载和存储等构成著作权法上的复制行为³(即以数字化等方式将作品制作一份或者多份)。筛选和压缩等其他处理行为未涉及著作权法规制的行为。值得说明的是,存储也非必须。有些AI公司为了模型调优或者故障处理可能会存储数据,但也可以在输入模型后立即删除原始训练数据。也有人认为其中发生了临时复制行为。国家互联网信息办公室等部委在2023年7月10日共同发布的《生成式人工智能服务管理暂行办法》(简称“暂行办法”)第7条规定:“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权。”虽然此条规定基本明确了模型训练数据需要授权,但暂行办法从效力上来说是部门规章,分析模型相关的版权问题还需要回到著作权法的范畴并结合国际做法进行分析讨论。
笔者认为无论是从模型训练对数据的使用方式、还是从实践操作的可行性等原因,人工智能技术的发展关系到人类社会未来的共同利益,在模型训练阶段对版权授权不宜做过于严苛的要求,可以考虑在一定范围内豁免AI公司需要取得版权人的授权,其理由如下:
1.模型训练过程并不一定受著作权法保护著作权法保护的是表达而不是思想。《与贸易有关的知识产权协定》第9条第2款规定:版权保护应延及表达,而不延及思想观念、程序、工艺、系统、操作方法或数学概念之类。”虽然我国著作权法并未明文规定,但该原理在我国司法实践中被普遍认同。笔者认为模型训练的过程,是对文字、图片或视频等生成方法的学习,学习成果是调优后的模型参数,属于思想的范畴。任何人类画师都可以学习其他画师的风格并创作出类似风格的画作。人类画师学习他人画作并不需要获得他人的授权。模型训练的过程,就好比人类画师学习他人画作的过程。Sora训练过程中,模型并不会直接存储或记住输入的原始图像或视频片段。模型学习的是从噪声图像或视频片段恢复到清晰图像或视频片段的过程。模型参数会根据训练图片或视频片段中的信息进行调整,以便于能更好地预测每个去噪步骤中应该添加或去除的噪声。模型通过优化参数来捕获训练数据中的统计特性,并利用学到的概率分布等知识合成全新的图像或视频。训练完成后得到的成果是优化后的参数值,而不是将输入的图片或视频片段存储在模型中。
2.如果模型训练被认为应受著作权法的保护和规制,也可能可以适用“合理使用原则”。
(1) 我国的合理使用规定目前未涵盖模型训练场景
合理使用是对著作权专有权利的限制,阻却了将未经授权而使用著作权法的行为认定为侵权行为⁴。目前我国《著作权法》第24条列⁵举的13种合理使用情形未包括模型训练。其中比较接近的是“为个人学习、研究或者欣赏,使用他人已经发表的作品”以及“为了科学研究少量复制已经发表的作品”,但都无法严格套用到模型训练的场景。目前,也有学者提出需要对24条做扩大性解释,例如“个人研究学习”的个人可以扩大到公司和组织等。该问题仍有待相关立法机关进行澄清和明确。
(2)国际上有将模型训练认定为构成合理使用的立法趋势
国际上,一些国家为了促进人工智能产业发展,已经对版权立法进行了改革,将模型训练阶段对数据的使用纳入到合理使用的范畴:
① 欧盟
欧盟早在2019年批准的《单一数字市场版权指令》第2章第4条就规定,“以文本和数据挖掘为目的,对合法获取的作品或其他内容进行复制与提取的行为,属于法规规定的权利例外”。但适用该条的前提是“权利人没有以适当方式明确保留对上述作品或其他内容的使用。”本条基本确定了如果权利人没有明确表示自己的作品不得用于模型训练,那么AI公司就可以默认不经权利人授权,免费使用他们的版权作品用于模型训练。
②日本
日本在2018年对《著作权法》进行了修改,在第30条4款将信息分析和信息处理设置为合理使用,规定在将作品用于信息分析或者用于电子计算机信息处理过程中对作品表达所进行的不被人类感知和识别的利用情形时,如对作品的使用并非为了自己或他人享受作品所表达的思想或情感时,可以以任何方式使用作品。但前提是不会对著作权人利益产生不当损害。2023年5月,日本文部科学大臣长冈惠子更是公开表示,“在日本,无论使用何种方法,无论是出于营利或非营利目的,无论用于复制以外的行为,还是从非法网站获得的内容,都可以使用信息分析作品。”⁶。
③美国和以色列
作为AI的技术大国,美国尚未对模型训练是否需要获得版权人授权有明确结论。美国的合理使用原则规定于美国版权法案第107条,以下是对原文的摘录:
在考察对版权作品的使用是否构成合理使用时,美国需要通过四要素测试,即考虑以下四个要素:(1) 使用的目的和特征,包括是否为商用或者非营利性教育用途:(2) 版权作品的性质;
(3) 所使用部分的数量和实质与版权作品整体的关系;
(4) 使用对于版权作品市场价值的潜在影响。
在美国司法实践中,通过案例又从四要素原则演化除了“转换性使用”原则。转换性使用原则下,即使是公司将版权作品用于商用场景也可能被认为构成合理使用。王迁老师对转换性使用的解释是“对原作品的使用并非为了单纯地再现原作品本身的文学、艺术价值或者实现其内在功能或目的,而是通过增加新的美学内容、新的视角、新的理念,或通过其他方式,使原作品在被使用过程中具有了新的价值、功能或性质,从而改变了其原先的功能或目的。”⁷著名的谷歌数字图书馆案Authors Guild v. Google中,美国谷歌公司将大量书籍扫描成电子版本并存储在Google美国的服务器中。用户可以通过Google图书的搜索服务功能,通过录入关键字就可以在线查询到图书概述和作品片段等信息。图书作者在中美两国法院都起诉了Google公司,美国法院认为Google公司对于图书的使用构成转换性使用,其原因是该种使用“加强了公众对于图书信息的知识,并且也未向公众提供替代的原始作品”。⁸中国法院也认可Google公司对于图书的信息网络传播行为构成合理使用,“涉案信息网络传播行为并不属于对原告作品的实质性利用行为,采取的片段式的提供方式,及其具有的为网络用户提供方便快捷的图书信息检索服务的功能及目的,使得该行为构成对原告作品的转换性使用行为,不会不合理地损害原告的合法利益。”王莘(棉棉)诉谷歌公司等图书搜索案(2011)一中民初字第1321号。上文已经解释过模型对于训练数据的使用,仅在于学习训练数据中抽象出来的特征或关联关系,以更好地优化模型参数,不是为了拷贝或者展示原始图片或视频片段中的表达性内容。笔者认为模型训练对于训练数据的使用具有更强的“转换性”,符合转换性使用原则。OpenAI在回复纽约时报诉求时,就认为其将纽约时报的文章作为训练语料构成转换性使用,所以不侵权。但是仍有待美国立法或者司法案例进行论证。
值得注意的是,同样采用美国合理使用四要素原则进行立法的以色列,已经公开表示机器学习属于合理使用,可以获得版权法的责任豁免,但仅用于模型训练阶段而不包括应用阶段的内容输出,也不应用于使用数个单一作者的版权作品进行训练的场景。⁹
3.要求模型训练获取版权授权在实践中操作性不强,基本无实现的可能。(1) AI模型训练需要海量数据,实践中AI公司无法做到取得所有训练数据的授权。目前AI公司的训练数据来源主要有以下四种:①通过授权方式购买/获得的数据、②通过爬虫爬取的数据、③AI公司业务过程中产生的数据,以及④外部开源的数据集的数据。一方面,从AI公司的角度,无论是Sora类的计算机视觉领域的多模态模型还是GPT系列的大语言模型,他们的训练都需要投喂海量数据。要求模型公司就所有训练数据都获得版权授权在现实中不具可行性。OpenAI并未披露Sora训练的数据源,但可以肯定的是他们一定使用了一个包含海量高清视频的高质量数据源进行了训练。OpenAI曾向公众披露GPT3训练的数据集可供参考:
注:详见纽约时报起诉OpenAI和微软的起诉书¹⁰第26页
举例来说,其中所列的最大的数据集是Common Crawl。Common Crawl是一个由风险投资机构运营的非营利组织所提供的开源的“互联网副本”数据集,包含了从互联网爬取的横跨17年间的2500亿网页内容¹¹。如此大的数据集既包含有版权作品,也包含了无版权作品,基本上任何人都无法核实所有数据的版权来源,更不用说取得所有版权作品的授权。
(2)即使法律要求模型训练数据需要取得授权,版权人在现实中也难以维权。如果AI公司将数据仅用作训练过程而没有后续的对外使用和传播,版权人无从感知他的版权作品被未经授权地使用了,也很难进行取证。本文开头提到的各版权人针对AI公司提起的美国诉讼案例,结果基本都是法官以证据不足为由驳回起诉。例如,在Andersen诉Stability AI一案中,法官驳回了原告的诉求,但允许原告可以提交直接侵权证据后修改诉状再次提起诉讼。法官认为即使原告能够证明Stability AI对50亿张压缩图像进行了训练,也不能证明这些图像中包含原告享有版权被侵权的那张图片。若法律规定在实际执行层面缺乏可操作性,则立法的实际意义便会显著削弱。
综上,在探讨当前版权法律框架与AI技术发展需求的交汇点时,我们主张在模型训练阶段应充分考量模型对版权作品合理使用的内在逻辑。模型训练是一种复杂的数据分析和学习过程,其目标并不在于直接复制或传播受版权保护的作品,而是从这些作品中提取普遍性规律和表达方式。因此,强制要求模型在训练阶段就获得每个独立版权作品的授权,可能会阻碍这一领域的技术革新与发展。于此同时,我们认为版权保护的重点应当适当地转移至模型生成内容的阶段。一旦模型完成训练并开始创造出新作品,这时产生的成果应受到审查,以确保其不触及现存任何知识产权的边界。这也是下篇中我们将讨论的内容。作者:张晓宇