作者stpiknow (H)
看板Patent
标题[新闻]美国生成式AI首宗着作侵权案实体判决出炉
时间Fri Jul 4 11:49:10 2025
Anthropic
美国生成式AI首宗着作侵权案实体判决出炉 -- Bartz, Graeber & Johnson v.
Anthropic
原文网址:
http://bit.ly/3Gx8MUp
原文:
前言
生成式AI(下称GAI)席卷全球以来,引爆前所未有的着作权争讼,目前已有约50件未经
授权使用他人着作内容,进行模型训练之GAI侵权官司。几乎所有的AI大咖,如OpenAI、
Meta、Google、Nvidia与Anthropic等,无一幸免都被告。以Claude聊天机器人爆红的
Anthropic,继全球第一件涉及GAI与音乐歌词的侵权案Concord Music Group, Inc. et
al., v. Anthropic後 (请参阅全球首宗音乐出版商控告生成式AI Claude歌词着作侵权案
),2024年8月再度被书籍作家控告,而与过去数宗侵权案仅止於程序判决不同的,北加州
法官於2025年6月下旬,就全球GAI模型训练是否构成合理使用,首度做出突破性的实体判
决。
本案缘起
美国AI公司Anthropic系由前OpenAI员工於2021年1月创立,其核心产品系Claude的AI软体
服务,能迅速产出类似人类的阅读与写作回应。之所以能做到此,是因为使用其建立的中
央资料库中挑选书籍与文本,训练Claude各版本之大型语言模型(以下称LLM)[1]。
为了建构LLM,Anthropic从网路上盗版网站免费下载数百万本书籍,但也购买了几百万本
纸本书(其中部分与从盗版网站取得的书籍重复),通常为二手书,然後由其服务供应商
将书拆除装订、裁切书页、逐页扫描成可搜寻的数位档案,并丢弃纸本书。每本书都被扫
描成PDF格式,包含扫描页面之图像与可机器辨识之文字。Anthropic因此取得数百万本书
的副本。此外,Anthropic亦复制原告作品内容 -- 例如在复制书评、学术文章、网志贴
文等。
Anthropic将这些复制版汇集成一个「中央图书资料库」(central library,以下或称「
资料库」或「图书馆」),再从其中挑选不同的书籍编入各种「资料组合」用於训练其正
在开发的LLM以提供其AI服务。即使决定不再使用某些书籍训练LLM,Anthropic仍将「永
久保存」这些资料库副本作为永久性、通用资源。
其中一些书籍为原告Andrea Bartz、Charles Graeber 与 Kirk Wallace Johnson等所撰
写,其作品遭Anthropic自盗版及购得来源中复制,而其所有的复制行为均未经授权,这
些作者遂於2024年8月向北加州法院,对Anthropic提起着作权侵害诉讼。彼等指控其训练
迭代LLM时,深知使用书籍是达到训练LLM最具成效的方法,因此於2021年1或2月间,下载
Books3 --一包含196,640本书籍的线上图书馆,且明知这些书系由未经授权复制而来之盗
版品,并继续下载其他经散布与再分享之盗版资料库副本。计2021年6月自Library
Genesis(LibGen)下载至少5百万本书;2022年7月自 Pirate Library Mirror(PiLiMi)下
载至少2百万本书,Anthropic均知其为盗版来源。
被告训练书籍经历之复制阶段
Anthropic选定用於训练的书籍,经历几个复制阶段,实际上「复制次数」多到其坦承难
以估计:
首先,从中央资料库复制出作业用副本以纳入训练数据集。
接着进行清洗,移除页首、页尾或页码等重复或低价值内容,产出「清洗版」副本。若同
一本书出现两次,或经过数据集检视後认为有删除理由,Anthropic会在此步骤删除该书
的相关副本。
第三阶段是「标记化(tokenized)」处理:词汇被简化(如 "studying" 转换为 "study"
),并转为短字符序列与对应的数值代码(token),依 Anthropic自行建立的词汇表。这
些标记化副本在训练过程中会反覆复制。此过程是一种尝试错误法的统计学习,用以发现
文字碎片之间、以及与其他书籍与网站之间的关联性。
第四阶段,训练完成的LLM本身保留所训练资料的「压缩版」副本。原告认为此等压缩版
本,实质上等於「记忆」几乎逐字相同的原文内容。也能让LLM背诵其所训练之着作,但
训练後的微调等程序,则不在本案讨论范围内。
本案二造争点与被告之程序反击
原告主张Anthropic至少有两项使用行为:其一,建立一庞大的中央资料库;其二,从该
资料库中挑选不同的内容集合来训练特定的LLM,并逐渐选择结构更佳、表达更精炼的作
品。原告主张,将纸本书扫描成数位档的行为本身即为侵权,不构成合理使用。
回应原告起诉,Anthropic则提出动议,主张使用原告书籍是正当的,要求法院就「合理
使用」做出简易判决(Summary judgment,或称即席判决)[2],其认为这些副本在训练
LLM过程中属於「合理必要」。因此本案於简易判决程序中,争点在於被告对系争着作之
使用,是否构成美国着作权法第107条之「合理使用(fair use)」。
原告仅就LLM训练之复制提告
每当LLM被整合至Claude公开版本时,系统会结合软体过滤使用者的输入与模型的输出,
但训练资料并未直接外泄至使用者介面。因此,原告「并未指控」Claude提供或未来可能
提供原着作的侵权副本,「也未主张」LLM的输出内容构成对其作品的侵害,更无证据显
示Claude公开版使用者曾接触任何侵权内容。原告亦未指称Anthropic曾将数位化的着作
副本,提供外部第三方使用。
亦即,原告并未挑战LLM的输出结果,而仅质疑其输入资料。尽管Claude可能协助作者创
作出与原告作品水准相当的内容,进而成为潜在竞争者,但原告并未主张Claude所输出的
内容,构成抄袭或明显的仿冒,亦无从追溯至特定之原告作品。
法院也认为,盗版或扫描的书籍被收录至中央资料库後,再从其复制转成训练资料。这些
资料经清洗、标注及压缩处理後纳入LLM。完成训练的模型不会透过Claude对外输出任何
原着作进一步的副本。即使某些书籍之副本最终未实际用於训练,Anthropic仍将其保留
以供未来其他的用途。在整个过程中,至少有原告的一部作品被纳入其中,而Anthropic
计划永久保存所有资料,即使部分作品最终未被纳入LLM训练。
总之,法院指出Anthropic的LLM并未向公众展现任何特定着作的创意元素,甚至未重现某
位作者可辨识的风格表现(即使假设这些风格本身具着作权保护性)。确实,Claude所生
成的语法、写作风格和结构,可能来自数千本作品的综合学习。但若某人阅读所有现代经
典,并模仿其优美表达是否即构成着作权侵权?当然不是,因着作权法不保护「运作方式
、概念或原则」之本身,即便其系由作品体现。
本案简易判决就合理使用四个要素之判断
加州北区联邦地院William Alsup法官於2025年6月23日做成中间判决,此为本案目前的首
次实体裁定(substantive order)。根据着作权法第107条,对受着作权保护之作品的合理
使用……例如批评、评论、新闻报导、教学(包括课堂使用的多份影本)、学术或研究之
目的,不构成着作权侵害。在判断特定个案中是否构成合理使用时,法院应考量下列要素
:
(1) 使用之目的与性质,包括是否具商业性质,或是否为非营利教育目的;
(2) 着作的性质;
(3) 所使用的部分在整体着作中所占的比例与实质性;
(4) 该使用对该着作潜在市场或价值的影响。
基於此,本案判决将该四项要素逐一说明,并详述每一要素如何适用於训练副本及购买与
盗版所得的资料库副本,最後给出整体综合分析。在美国着作权法实务案例中,由最高法
院所揭櫫出来的「转化性」使用,是判断是否构成合理使用重中之重的关键要素!
1.使用之目的与性质
对於所争议的使用行为,第一项要素着眼於该使用的「目的与性质」,包括该使用是否具
有商业性,或是否为非营利教育用途。
A. 用於训练特定LLM的副本
系争使用行为是为了训练LLM,以便其接收文字输入并产生文字输出,Anthropic复制原告
的着作,藉由训练过程反覆映射每个文本片段序列之间的统计关系,以训练模型,就像人
类能理解提示,接收文本输入并回覆新的文本输出,该训练过程中包含「记忆」作品内容
,将其「压缩」进模型中,这些模型记住非常多内容。
法院强调,原告未主张任何LLM的输出内容实际侵害其作品,而Claude加装额外过滤软体
,在使用者与LLM之间设置屏障,以确保不会有侵权内容传送至使用者端。如果使用者看
到的内容属於侵权,原告可另案主张;若未来输出内容变成侵权,原告亦可再告,但目前
的情况并非如此。
质言之,将着作用於训练生成新文本的LLM,其目的与性质属於典型的「转化性使用」。
正如某读者想成为作家,Anthropic的LLM并非「为了复制原作而训练」,而是「为了创造
出不同的作品」。若训练过程中,合理需要将着作复制进入 LLM系统中或以其他方式保留
副本,则此复制行为属於合理使用范畴。因此,就第一项要素「使用目的与性质」,对训
练副本而言,倾向支持合理使用。
B. 用於建立中央资料库的副本
由於Anthropic所购买与非法取得的资料库副本,在法律上的情况有所不同,法院分别处
理。
(1) 从合法购买纸本转为数位资料库副本
Anthropic购买数百万本纸本书建立「研究资料库」,其做法是将每本书扫描为数位形式
後销毁原件,仅将转换後的数位副本保留於资料库中供内部使用,而非对外分享或销售。
依美国着作权法第109(a)条,Anthropic购买纸本书後,取得该书完整的处置权,因此有
权将其副本保留於资料库中,做为一般用途。而本案涉及之数位副本仅供中央资料库内部
保存,并未对外公开散布,Anthropic将合法购买的纸本书转为数位格式的副本,目的在
资料管理与运作效益,符合第一要素中的转化性使用。若这些数位副本日後用於训练LLM
,则该行为因训练目的用途不同亦构成转化性使用。
法院认为,因为资料的储存与可检索性,并非着作本身之创作特质,而属於作品外部框架
的物理属性,或关於作品之资讯特性层面。Anthropic原本有权保留纸本书,其选择改以
复制为数位版本保存,此种纸本转数位(print-to-digital conversion)格式转换行为本
身,目的在节省储存空间并提升检索便利性,可构成合理使用。此一转换未新增任何副本
,且有助於资料管理与快速查询,其目的并非侵害着作权人之正当权益,因此具备转化性
。因此,这些数位副本应视同原始购买的纸本书,可合法存放於中央资料库中。
至於Anthropic作为营利机构,其本身之「商业性质」仅是其中一项考量,但并非第一项
合理使用的决定性要素。该要素的核心在於,是否保护着作权人行使其权利、或选择不行
使其权利的自由。换句话说,被告是否为营利机构、是否从中获益,仅具指标性意义,并
非决定性要素。
总之,合理使用第一要素,支持将合法购买的纸本转为数位副本,但这一结论,不适用於
非法取得之资料库盗版副本。
(2)盗版资料库副本(Pirated Library Copies)
在购买实体书建立中央资料库之前,Anthropic曾下载超过七百万本盗版书籍副本,未支
付任何费用将其纳入资料库保存,即使後来决定这些书籍不会用来训练AI(不论是暂时或
永久)。从盗版网站复制教科书,即已构成侵权,无须另作讨论(……the person who
copies the textbook from a pirate site has infringed already, full stop.)。就
Anthropic的论点:仅因某些副本日後可用於训练LLM,就主张这些副本纳入资料库可属於
合理使用,法院不予采纳。
法院不认为从可合法购买的网站以盗版形式下载资料,对後续使用有其「合理必要」。没
有任何法院认为:为撰写书评、研究书中内容或训练LLM,而复制本可合法购得的书籍副
本,是正当或必要的。即使这些盗版资料用於具转化性的用途并立刻被删除,这种取得行
为本质上,已是不可许可的侵权行为。
欲建立一可供各种使用目的之资料库,本即为Anthropic取得副本之使用目的。虽然其後
续使用是用来训练LLM,但不是所有的盗版书籍都实际用於训练,也不是所有副本都因此
被删除。将盗版资料作为研究资料库用,仅因其「可能未来有用」,本身即构成一种使用
行为 – 而这种使用不是转化性使用。
本案客观分析结果显示,Anthropic起初是为建立一通用目的之资料库而盗版着作,以取
代购买正版来实现同样目的。值得注意的是,本案并非「来源副本无法购买或借阅」,才
使用盗版来源制作副本,而且本案也非那种「仅因偶然或技术上必要」,才使用盗版来源
制作副本的情况。Anthropic「盗版」本身就是目的:其为了建立中央图书馆,而该资料
库本可透过合法付费方式购买而建立,却选择不付费,尽管後来还是购买部分正本。
本案Anthropic的盗版情况,其复制首批作品时,并没有任何已授权的正本可作为来源;
这些被复制的全文资料,也并非每一份副本都是训练LLM所需;甚至有许多初始副本根本
没被使用或不再使用,却仍从未被删除,遑论Anthropic建立的资料库副本,缺乏任何内
部控管机制以限制存取或使用权限。
小结:此类使用作品训练LLM行为,合理使用的第一要素 --「使用之目的与性质」极具转
化性(transformative)-- 甚至可谓极为显着的转化。但本案中对於从盗版来源而来的
中央资料库副本,倾向不构成合理使用。而且,即使 Anthropic事後购买作品之合法副本
,也不能抹除最初盗版所造成的侵害。
2. 着作的性质
合理使用的第二要素为「原告着作之性质」,其要求:某些类型的着作,较其他类型更接
近着作权法所意图保护的核心,因此当被使用的是此类着作时,要主张合理使用将更为困
难。譬如:已出版作品相较於未出版作品享有较低的保护;事实性作品(如报导、论述)
比虚构或幻想性作品(如小说、诗歌)受到的保护也略低。但保护较低不等於毫无保护。
即便是不具保护性的事实陈述,其编排若具有创意,仍可超越着作权保护的最低门槛。
本案中,Anthropic已承认所有原告的书籍皆系已出版作品,无论是小说或非小说,皆包
含可受着作权保护的表达内容。法院认为,Anthropic正是基於作品之「表达性价值」选
择这些书籍,用来建立其中央资料库,并进一步作为LLM训练资料之依据。本要素之主要
功能,是辅助评估其他合理使用要素,包括:原作品性质与後续使用性质的差异;复制数
量与後续使用目的之关联。因此,就所有类型副本而言,第二要素皆不利於主张合理使用
。
3. 使用部分的数量与实质性(Substantiality)
第三项合理使用要素为:「被告使用原着作中多少比例与实质性」。关键在於:使用的数
量是否与其复制目的「具有合理关联」?因此,法院分析:被告对原作品的使用比例;更
重要的,是这些使用是否合理且与其所主张的转化性使用目的(transformative purpose)
相符。
A. 用於训练特定LLM模型的副本
被Anthropic纳入训练集的副本之所以被选用,是因其内容完整且包含丰富具保护性的表
达内容,那麽,这些复制行为是否对转化性使用而言属於「合理必要」(reasonably
necessary)?答案是肯定的。因为此要素重点不单在於「复制多少内容或是否具实质性」
,而更在於「这些内容在所主张的第二次使用中,被公开揭露给大众的范围与实质性,是
否构成对原作主要用途的竞争替代品」。
法院再次强调,原告在本案中,并无指控任何Claude输出结果的内容,与原告作品之间存
在可追溯之连结。因此,训练Claude基础之LLM所使用的复制行为,其合理性尤其明显。
对此,原告主要反对的理由是,用於训练的复制范围过於广泛:整本书皆被复制,且并非
「绝对必要」。
本案确实存在整部作品被大量复制的情况,而依巡回上法院之实务见解是「复制整部作品
,不利於合理使用之认定」,但法院认为,本项要素所需评估的是,那些仅用来达成与作
品原始用途相同之复制行为。而原告并未指控此类复制行为之存在。本案中,Anthropic
被指控的复制(训练LLM),与书籍原本的一般用途(阅读、贩售)截然不同,两者几乎
毫无交集,因此原告的主张无法被采纳。
至於「绝对必要」(strictly necessary)方面,法院认为:若某项具有生产性的使用
(productive use),只有在引用某特定作品时才得以实现,则合理使用的强度会提升至最
高点;反之,若该使用在未引用该特定作品时亦可实现,则合理使用的强度降至最低点,
而引用该作品需有特别强而有力的正当理由。本案Anthropic的确可使用其他书籍,或甚
至不使用书籍来训练其LLM,但Anthropic提出具说服力的解释,说明为何使用这些作品属
於「合理必要」。
二造一致同意,训练LLM 所需的文本量极为庞大。原告主张,既然Anthropic 证明能使用
较小规模的书籍进行训练,则其理应可以完全不使用书籍 -- 或至少不使用原告书籍。但
法院认为,原告忽略一点:「合理必要」并不等於「绝对必要」。因此,在使用如此大量
作品为合理所需的前提下,实际使用任何一部作品进行训练,与使用其他作品在合理性上
并无明显差异。
再者,原告并未主张Claude对外公开的输出内容,有任何部分构成侵权。因此,尽管原告
的作品因表现优秀而被选入训练集,但将这些高品质范例用於训练LLM所带来的明显效益
,并未以揭露作品内容提供予公众作为代价。因此,训练过程中所复制的内容,在此情况
下属於特别合理而且是具说服力的使用。
小结:第三要素倾向支持合理使用 -- 尤其对於训练LLM的复制资料而言。
B. 用於建立中央资料库的副本
不过,有一项不同的使用情况 -- 这种区别会影响判断复制数量与实质性,是否「与复制
目的合理相关」。
(1) 由纸本转为数位格式的已购图书副本
对Anthropic已购买的纸本图书,并将其转为数位格式後用於资料库保存,Anthropic已拥
有在资料库保存该副本的权利。其复制之目的是为了保存该书,并使其在储存与检索上更
为便利,而复制整本书正符合此目的所需,并无过度复制,因原始的纸本已被销毁。因此
,第三合理使用要素支持该已购买副本转数位的行为构成合理使用。
(2) 盗版的图书副本
然而,对於盗版图书副本,Anthropic并无任何持有权。虽然其声称目的是为训练LLM,但
其实际行为是想要「收集全世界所有书籍」,且即使决定不再用该副本进行训练,仍保留
该副本,暗示有其他未明确说明的用途。针对这种「收集所有可能对训练或其他用途有用
书籍」的行为,任何未授权的复制数量几乎都嫌过多,而Anthropic竟复制数百万本包括
原告的着作。因此,第三要素对盗版图书副本不利於合理使用。
(3) 使用对市场或着作权价值的影响
最後一项合理使用要素是:「该使用对着作权作品潜在市场或价值的影响」。当复制的副
本,取代着作权人已经或可能提供的市场需求时,此要素不利合理使用。「第一要素考虑
的是原作品与第二次使用,原则上是否可能互为替代用途,第四要素则关注实际或潜在的
市场替代效应。」
A. 用於训练特定LLM的副本
法院认为,用於训练LLM的副本,并未也不会取代原告着作的市场需求,或者说未达到着
作权法认定的重要取代程度。原告自己也承认,训练LLM并未导致向公众提供与其着作一
模一样的复制品,亦未导致侵权抄袭品的公开发表。如果情况非如此,案件结果会截然不
同。若未来有此类事实出现,原告仍可另行提告。
原告主张训练LLM「可能」会导致大量替代性作品涌现,与其着作竞争 -- 例如事实摘要
、小说改写、写作风格模仿等;而且训练LLM已经或将来会取代一个新兴市场 -- 该市场
为着作授权用於LLM训练(狭义目的)之市场。Anthropic则辩称,若付费给权利人,交易
成本将超过其技术开发的预期利益,导致其可能放弃与权利人合作,甚至放弃技术开发。
但法院认为,着作权法之目的是促进原创作品的创作,而不是保护作者免於市场竞争。至
於市场或有发展可能,但即使如此,该用途市场并非着作权法保障作者享有之必然市场。
原告援引的案例皆涉及对着作权法真正保护权利的市场损害,而非本案所涉的合理使用类
型,着作权人不能如此期待。
小结:第四合理使用要素支持针对用於训练的副本主张合理使用。
B. 用於建立中央资料库的副本
(1) 已购图书由纸本转为数位格式副本
本判决假设,Anthropic将已购纸本转换为数位格式,可能取代其本来会直接向原告购买
数位版的行为(假如无法以二手纸本购得时)。但依第一要素所述理由,这种损失不属於
着作权法保留给原告的权利范围,纯粹只是格式转换。
原告进而主张,即使如此,格式转换仍可能使原告失去销售正本的机会,因为Anthropic
传输数位副本比纸本更容易,且所有格式转换者状况相同。经调查,本案并无任何迹象显
示Anthropic有意於取得资料库副本後再分发。且若内部中央资料库副本确实导致进一步
复制或散布,原告仍可就该等後续侵权行为另行求偿。格式转换本身并未剥夺原告的正当
权益。因此,对已购纸本转数位的行为,本要素呈中性。
(2) 盗版图书副本
用於建立中央资料库且来自盗版来源的副本,显然是以一对一的方式取代了原告书籍的市
场需求。并非所有只是想进行合理使用的人,在此期间都有权拥有完整副本,更无权为了
方便或降低成本而窃取。用於训练LLM的副本是一回事,而为了组建一方便且通用的资料
库以备不时之需而蒐集副本,则是完全不同的使用行为。
Anthropic首先辩称「Claude服务并未透过取代原告传统市场,而降低或剥夺其作品价值
」,但原告作品的盗版显然已构成取代市场的行为。其次,Anthropic辩称其可能只能购
买部分书籍及文本,无法取得其他复制的文本。但本案不涉及那些无法购买的文本,原告
的书籍都是可购买到的,Anthropic事实上後来也买了。最後,Anthropic认为单一本书的
损失太小不足以考虑,但合理使用的判断须考量:若该行为被认可为合理使用,所产生可
能之结果 -- 即窃用本来可买到的作品(一本书、数百万本书),只要表面上意图做所谓
的转化性使用(书评节录、LLM训练等),却不需负任何责任,这当然不对。因此,本要
素对盗版图书副本判定不利於合理使用。
法院总体分析之结论
法院最终之总体判断为,用於训练特定LLM的副本系合理使用。除了第二项着作性质的要
素外,其余三项要素均支持此结果,尤其第一项要素给予强烈支持。法院更指出,涉案技
术具高度转化性,甚至可能是「许多人一生中所见到最具转化性之技术之一」。而对於被
告将合法购买之纸本书转换为数位副本的行为,法院亦认定为合理使用。理由在於纸本已
被销毁,而数位副本并未被再分发,其目的仅为提升资料储存效率与可搜寻性。
相较之下,用於建立中央资料库的盗版书籍副本,则不构成合理使用,法院指出,四项要
素全数不利被告。每项着作的使用均需个别提出正当理由,但本案中除方便与成本考量外
,并无其他合理化之依据。至於部分副本未实际用於模型训练,仅作保留之用,法院仍不
授予Anthropic简易判决,因其资料库副本仍被保存,且工程团队确实制作过其他副本。
总结以上分析,Anthropic为训练Claude所使用的书籍,构成极具「转化性」之使用,属
於着作权法之「合理使用」。至於Anthropic扫描其所购买的纸本书籍所产生的数位副本
,虽也构成合理使用,但理由不同於用於训练的副本。其所以构成合理使用,是因其仅将
为中央资料库所购买之纸本书籍,转换成提升资料处理效率之可搜寻的数位副本,并未新
增副本、创作新作品,或再分发既有副本。然而,特别重要的是:要创建一永久、通用性
的资料库,Anthropic无权使用盗版书籍副本,作为其中央资料库训练LLM,其本身不足以
正当化使用侵权着作,也不构成免除责任的合理使用依据。
总之,法院授予Anthropic关於训练用途为合理使用的简易判决,也授予纸本转数位格式
变换为合理使用的简易判决。但否决Anthropic主张盗版图书副本,应视同训练副本的简
易判决请求。法院接下来,将继续针对用於建立Anthropic中央资料库的盗版副本及其造
成的损害(实际或法定赔偿,包括故意侵权)进行审判。Anthropic之後购买其先前窃用
的书籍副本,不能免除其窃用责任,但可能会影响法定赔偿的程度。对於从资料库副本衍
生的其他用途副本(非训练用途),并不排除任何追诉可能。
以上是美国最新判决的介绍,以下是笔者本判决所带来的启示。之前美国好几个法院都做
出中间性程序判决,本案性质上虽也是中间判决,但却是针对合理使用之实体部分做出的
实质判决,这也是本判决最让人瞩目的原因。因为过去众多案件的法官,没有这麽直接清
楚的做出突破性的法律意见,此判决原告可能不服而上诉,但最核心的部分对原告并非不
利,尤其是法官就所谓盗版的继续审理。无论如何,本判决可说是石破天惊立下标准!值
得关注。
用於训练特定LLM模型之复制是否具转化性 -- 盗版 v. 合法版
基於用来训练特定LLM模型的副本,此法律上是可构成转化性的使用,但问题是,并非只
要进行训练LLM所使用的副本都合法!法官在这层面上做了二种区隔,必须先看工具训练
者所使用的副本来源,如是合法买来的,那麽将这本实体书纸本转化为数位格式加以训练
,是合理使用!反之,只要来源并非合法购得,譬如未经授权在网路上爬取资料的复制,
就非合理使用!但是否即构成违法侵权,法官必须要再审理下去,因为毕竟简易判决之程
序,不过是顺着被告提出动议後所进行的中间裁决而已。
以上法官划下的判定标准,可从二个角度观察:首先,所有训练AI工具的供应商,必须要
了解手上所使用资料来源,法官虽然只提到纸本书,但从法理上看,来源只要是合法购得
的,此时不论是纸本或网路版譬如电子书,只要是买来的,这些素材都可将其作为训练资
料,而此时进行的复制动作,都可构成合理使用而不侵权。其次,只要是未经合法购买的
版本,也就是判决所谓的盗版副本,则有可能违法,但目前尚不得而知﹗不过基於法院所
述,预估将来可能对被告不利(不过也不排除其他有利的抗辩理由)。最後,是其他在网
路上不收费的素材,是有人自愿放在网路上自由让大家看,这部分法官并没提到,不过基
於该类素材是自由流通,拿来做LLM模型可能构成合理使用,法理上应做如是观。
以上之判断标准,显然为沉寂多时的出版界注入一强心针,因为对许多新世代来说,几已
不太看纸本而完全以网路为主,因此法官的判决只要是合法购买纸本书,就可做训练之用
,这当然会振兴实体出版的销路,而其所画下的原则,等於宣示只要合法购买纸本书籍,
就可拆解扫描进行GAI的使用。
不过,必须特别注意的是,本案原告只针对AI工具开发商单纯在训练过程中所进行的复制
提告,而并未将AI吐出来内容作为提告的对象,因此必须把训练过程中的复制,和结果吐
出来是否可能产生近似结果的复制,加以区别。二者在法律评价上应不同,这可从本判决
多次提到:「如果训练LLM并未导致向公众提供与其着作一模一样的复制品,亦未导致侵
权抄袭品的公开发表。如果情况非如此,案件结果会截然不同….」,似乎暗示将朝合理
使用相反方向发展!但目前还无任何判决,而本案仅止於前者的法律评价。
在目前众多GAI案件中,原告大多是告训练过程中的复制,迄今只有下列几件原告将被告
AI工具产生结果构成近似的部分提告,并举证做具体比对:
1. New York Times v. Microsoft & OpenAI(请参阅媒体巨擘控告ChatGPT着作侵权案
--New York Times v. Microsoft & OpenAI) ; 2. Concord Music Group, et al., v.
Anthropic (请参阅全球首宗音乐出版商控告生成式AI Claude歌词着作侵权案);3. UMG
Recordings v. Suno(请参阅全球首宗生成式AI录音着作侵权案─美国唱片业巨头控告
SUNO); 4. UMG Recordings, et al,. v. Uncharted Labs; 5. GEMA v. Suno(请参阅欧
洲首宗生成式AI着作侵权官司─德国音乐仲团GEMA起诉OpenAI和Suno)。但目前尚无任何
判决有待观察。简单说,如果被告生成出来的内容,是构成与原告的着作相同或近似时,
那麽此时法院针对合理使用的判断,可能会有不同的考量。
接下来,再谈一下本案最核心的关键:为何训练LLM可构成所谓的转化性?
本案法官能勇敢的做出全球第一个具转化性之肯定见解,其立意固然甚佳,但针对其为何
能构成转化性的分析理由,似尚有可值得补充之处,笔者尝试补充解释如下。
GAI转化性概念之法理思辩
在本案简易判决之前,有论者认为在AI训练过程中,是否应重新检视「复制」这个传统法
律概念?因AI资料处理经常将文本转换为「向量」的数值代码技术,然後用这些向量从大
型语言模型接收输出回应,此即科技上「向量嵌入」(vector embedding)之应用。因为当
今GAI训练资料已不可逆,由於电脑看不懂人类的文字图画,所以需先做向量嵌入,以编
码的方式运作让电脑看懂,好让电脑可以利用线性代数中做矩阵数值运算,因而「向量嵌
入」操作系不得不进行之动作。
论者遂主张,训练过程中之复制,本质系为训练而并非是要去抄袭,因而不属於传统复制
,故倡议为因应AI发展需解除着作权束缚,随着科技进步将复制概念加以转换,使训练过
程中之复制不视为一般违法复制。但问题在於,未经授权爬取作品内容,一般观念上此网
路上爬取资料的动作即构成重制。因此,GAI案件中被告抗辩「爬取并不等同於复制」
(AI scraping isn’t copying)的观点,法理上过不了关。
退而求其次,再来检视合理使用。概念上,从网站爬取资料,纵使涉及过程中之复制,但
其目的只是在拷贝全文後,再「抽取元数据」(abstracting metadata);尤其是关於字和
字、句子和句子之间的关连性与权重、与不受着作权保护之统计模式或词频等资讯,结合
这些数据建构AI工具,故从运作过程上看,其所着重的已非对原数据的「单纯复制」,而
有其转化之用途。
换言之,GAI模型中之设计操作,并非单纯用来「复制资料」,其主要目地系从资料中,
是在找出着作权表达层面以外之抽象化的知识(如用日本着作权法第30条之4的规定来类
比,就是「不以供自己或他人享受或观赏作品中所表达之思想或感情为目的」(请参阅因
应生成式AI我国应修改着作权法吗?─以美国、日本与欧盟模式为例),亦即本判决所谓
:Anthropic的LLM并非「为了复制原作而训练」,而是「为了创造出不同的作品」。因此
,AI运作中之向量嵌入虽系复制,但视个案情况可能具有转化性而得构成合理使用
(transformative fair use)。不过应注意:法院针对判决中所谓盗版副本的部分,虽然
未立即认为就构成侵权,但在驳回被告驳回起诉动议之余,将来仍会继续审判,并非当然
构成转化之合理使用。
总之,本判决是美国首度针对GAI训练资料之复制,是否构成合理使用的中间实质判决,
未来可能对其他三大模型如GPT、Llama和Gemini等GAI工具的着作权诉讼案产生影响。
心得:
这则报导说明,美国法院於2025年6月做出生成式AI(GAI)训练资料合理使用的首宗实体
裁定:Anthropic采用合法购买的纸本书转扫描版并用於训练,被视为转化性使用,属合
理使用;但若从盗版来源复制图书建立资料库,则不构成合理使用,仍属侵权。此判决强
调资料来源合法性关键,对AI训练使用的合理使用界限具有重大指标意义,将深刻影响未
来类似AI着作权诉讼。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 203.145.192.245 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Patent/M.1751600953.A.7DA.html