美国法院历史性裁决:AI训练书籍属“合理使用”,但盗版存储构成侵权
作者:微信文章美国加州北区联邦法院法官William Alsup于2025年6月23日对Bartz v. Anthropic案作出里程碑裁决,首次系统界定生成式AI训练中的版权问题。
案情回顾
2024年8月,三位作家Andrea Bartz、Charles Graeber和Kirk Wallace Johnson集体起诉AI公司Anthropic,指控其未经授权从盗版网站(如Books3、LibGen)获取并利用他们的书籍训练大语言模型Claude,构成版权侵权。Anthropic承认使用盗版数据,但辩称训练行为属版权法下的“合理使用”,并已为部分书籍购买正版。
判决核心认定
1、AI模型训练行为:构成合理使用 ✅
法律定性:使用受版权保护书籍训练大语言模型(如Claude)属于美国《版权法》第107条规定的“合理使用”(Fair Use)。
法官核心观点:训练过程具有“极高转化性”(exceedingly transformative)。其目的并非复制或替代原作,而是通过分析作品模式、风格与结构,创造出全新的技术表达方式,符合版权法“促进科学与实用艺术进步”的立法宗旨。
关键前提:原告未指控模型输出内容直接侵权;训练中产生的临时性复制(如数据清洗、分词)被视为技术必要环节。
2、合法书籍数字化:构成合理使用✅
法律定性:Anthropic合法购买实体书籍后,将其扫描转换为数字格式用于内部研究,属于合理使用。
关键条件:
l数字副本仅限内部使用,未对外分发。
l实体书原件已被销毁。
l转换目的主要是优化存储空间与内部检索效率。
3、盗版获取与存储:构成版权侵权❌
法律定性:Anthropic通过盗版网站(Books3, LibGen等)下载超过700万本受版权保护书籍,并存储于其“中央数据库”(Universal Data Area)的行为,不构成合理使用,构成直接侵权。
法官主要理由:
l明知存在合法获取途径(购买/授权),仍选择盗版方式。
l永久性存储盗版副本建立了替代正版市场的“盗版图书馆”。
l事后购买部分正版书可影响赔偿金额,但无法免除盗版侵权责任。
判决依据:“合理使用”四要素深度解析
法官严格依据美国《版权法》合理使用的四个法定要素进行分析:
法律要素
对训练行为的认定
对盗版存储行为的认定
使用目的与性质
(Purpose and character)
高度支持:具有“极高转化性”,创造新技术
不支持:仅为建立侵权资料库,无转化性
作品性质
(Nature of the work)
略不利:文学创作受较强版权保护
略不利:同左
使用数量与实质
(Amount and substantiality)
支持:技术必要,未超必要限度
不支持:复制全书且永久存储
对作品市场/价值的影响(Effect on potential market)
支持:不替代原作品市场需求
不支持:直接剥夺作者销售与授权机会
判决要旨:转化性程度是合理使用的关键考量。训练的高度转化性使其即使使用大量受保护作品,仍可被认定为合理使用;而盗版存储完全不具转化性,且严重损害市场。
行业影响与后续发展
对AI行业的明确指引:
l为OpenAI、Google等公司面临的类似诉讼提供重要先例参考。
l企业必须确保训练数据通过合法授权或购买获得。非法抓取(爬虫盗版)或存储盗版副本将面临高额侵权索赔。
l合法获取内容后的数字化转换需严格限制用途(如仅限内部研究)、控制副本数量、避免对外分发。
对版权权利人的影响:
l未来诉讼将更集中于证明AI公司数据获取方式非法或存储行为侵权,而非抽象争论训练本身的“转化性”。
l判决将推动AI公司与出版商、媒体等内容方达成正式数据授权协议,“先授权后使用”模式将成为行业主流。
案件后续
Anthropic虽在“训练合法性”上胜诉,但需就盗版存储侵权行为于12月接受陪审团审判,以确定赔偿金额(根据美国法律,故意侵权每部作品最高可赔15万美元,潜在赔偿总额巨大)。
本案判决可能被上诉,但其作为首例明确AI训练版权边界的司法意见,具有重大风向标意义。
来源:赢在IP
韶关市版权协会
扫码关注我们
页:
[1]