

一、本案事實
本案是好幾位作家對AI公司Anthropic提告侵害著作權,作家並沒有主張AI模型生成結果(output)會侵權,而是主張訓練(input)構成侵權。
AI公司除了從盜版網站下載書本,也自己買紙本書掃成電子檔,成立一個電子圖書館(目的是蒐集全世界所有的書)。
法院調查事實後發現,AI公司並沒有將這個電子圖書館所有的資料都用於訓練,而且打算要永久保存。
二、被告的三個行為
法院將AI公司的行為切成三個行為:
(一)用著作權資料訓練AI模型
法院認為,用著作權資料訓練AI,是高度轉化(符合合理使用第一個要件),沒有影響到原作的市場價值(符合合理使用第四個要件),整體判斷後,構成合理使用。
1.合理使用第一個要件
法院認為,AI公司用著作權資料訓練AI,目的不是為了複製或取代這些作品,而是劇烈轉向並創造出不同的東西。
In short, the purpose and character of using copyrighted works to train LLMs to generate new text was quintessentially transformative. Like any reader aspiring to be a writer, Anthropic’s LLMs trained upon works not to race ahead and replicate or supplant them— but to turn a hard corner and create something different.
2.合理使用第四個要件
法院認為,著作權法旨在促進原創作品的發展,而不是保護作者免受競爭,作者不能主張AI模型可能創作出類似的東西而產生取代效果。
The (Copyright) Act seeks to advance original works of authorship, not to protect authors against competition.
(二)將紙本書電子化成立電子圖書館
法院認為,AI公司買紙本書掃成電子檔,至少有付錢,是合理使用。
(三)從網路下載盜版書成立電子圖書館
法院認為,AI公司從盜版網站下載書本成立自己的電子圖書館,不是合理使用,而構成侵權。
三、本文關注被告的第1個行為:AI模型使用著作權資料進行訓練是否侵權?是否構成合理使用?
法院以合理使用四要素進行分析:
(以下為AI生成)
大型語言模型(LLM)訓練為何構成合理使用(Fair Use),判決針對 LLM 訓練複製品(training copies)的四個合理使用因素進行了詳細分析:
判決認為,將作品用於訓練 LLM 是一種極具轉化性的用途(exceedingly transformative use),因此構成合理使用。
(一)目的與性質(Purpose and Character of the Use)
法院認為,使用作品來訓練 LLM 的目的和性質是轉化性的(transformative),且達到「極其轉化性」(spectacularly so)的程度。
• 行為本質: Anthropic 使用原告的版權作品複製品,目的是迭代地映射(iteratively map)每個文本片段與所有文本片段序列之間的統計關係,以便訓練完成的 LLM 能夠像人類讀者和作者一樣接收文本輸入並返回新的文本輸出。
• 非取代目的: 判決指出,Anthropic 的 LLM 訓練是基於作品,但目的不是為了複製或取代這些作品,而是「轉了一個硬彎並創造出不同的東西」(turn a hard corner and create something different)。
• 與人類學習類比: 作者主張 LLM 訓練就像訓練任何人閱讀和寫作。法院回應稱,數百年來,人們閱讀、背誦、內化(memorize, internalized)書籍的主題、觀點和寫作風格。要求每個人每次閱讀、每次回憶、每次寫作時都為使用書籍付費是「難以想像的」(unthinkable)。
• 版權範圍之外: 即使 LLM 從數千部作品中提煉出語法、寫作結構和風格,但版權法不擴展到作品中「說明或體現的操作方法、概念或原則」(method[s] of operation, concept[s], [or] principle[s])。
• 正交關係: 訓練用途與版權所有者合理預期能夠控制的權利是「正交的」(orthogonal)。
• 輸出不侵權: 原告並未指控任何 LLM 輸出的內容侵犯了他們的著作權。事實上,Claude 服務在用戶和底層 LLM 之間增加了額外的軟體來過濾輸出,以確保不會向用戶提供侵權內容。如果輸出涉及侵權,那將是不同的案件。
結論: 此因素傾向合理使用。
(二)版權作品的性質(Nature of the Copyrighted Work)
此因素旨在確認作品與版權保護核心的關係。
• 作品類型: 原告的所有書籍均已出版,包含虛構和非虛構作品。
• 作品內容: Anthropic 承認原告的書籍包含表達性元素(expressive elements),且法院接受這些作品因其「精心策劃的事實、組織良好的分析」和**「好的寫作」**(good writing)而被選入訓練集。
• 保護程度: 虛構作品或幻想作品比事實作品獲得更多保護。
結論: 由於作品具有表達性元素且部分為虛構作品,此因素傾向不利於合理使用(即不利於 Anthropic)。
(三)使用部分的多寡與實質性(Amount and Substantiality of the Portion Used)
此因素的核心是複製的數量是否**「與複製的目的相比是合理的」**(reasonable in relation to the purpose of the copying)。
• 複製範圍: 訓練複製使用了作品的全部內容。雖然複製整個作品通常不利於合理使用,但在這裡被認為是合理的。
• 合理性: 重要的是**「在聲稱的二次使用中,有多少內容可供公眾使用,並可能作為(版權作品的)競爭替代品」**。由於沒有指控 Claude 服務的輸出與原告作品之間存在任何可追溯的聯繫或侵權,因此用於訓練 LLM 的複製是**「特別合理的」**。
• 必要性: Anthropic 為了訓練任何 LLM 需要數十億詞的文本,這意味著需要數十萬到數百萬本書籍。雖然 Anthropic 並非「嚴格需要」(strictly necessary)使用原告的書籍,但鑑於所需的龐大文本量,使用其中任何一本書來進行訓練都是**「大約與下一本書一樣合理」**(about as reasonable as the next)的。
結論: 此因素傾向合理使用。
(四)對潛在市場的影響(Effect of the Use upon the Potential Market)
此因素關注二次使用是否會取代版權所有者已經或可能提供的作品市場需求。
• 市場取代性: 用於訓練特定 LLM 的複製品不會取代(did not and will not displace)市場對作者作品的需求。
• 非競爭性替代品: 作者主張訓練 LLM 將導致與其作品競爭的作品激增(例如:替代性的事實摘要或引人入勝的寫作範例)。法院認為,這種抱怨與抱怨訓練學童寫作會導致競爭作品激增沒有區別。這不是版權法所關心的競爭或創造性替代。版權法旨在促進原創作品的發展,而不是保護作者免受競爭。
• 授權市場: 作者主張 LLM 訓練取代了將作品授權給 LLM 訓練的新興市場。即使假設這個市場可能存在,法院裁定,版權法不賦予作者權利去利用針對合理使用而產生的市場。這是因為訓練 LLM 屬於版權所有者無法合理預期控制的用途。
結論: 此因素傾向合理使用。
總體分析
綜合來看,除了作品的性質外,所有因素都支持 LLM 訓練構成合理使用。法院總結道,所涉技術是當代最具轉化性的技術之一。
這就像是:一位廚師(LLM)閱讀了數千本食譜(版權作品),學習了烹飪方法、調味原理和食材搭配(內化統計關係)。雖然廚師擁有這些食譜的全部知識,但他用這些知識創造出全新的菜餚(非侵權輸出)。版權法保護食譜的文字表達,但不能禁止廚師利用這些知識來從事新的烹飪工作。
四、對AI公司的意義
我個人認為,本案所顯示出來的方向對AI公司相當有利。
一般來說,討論AI模型是否侵害著作權這個問題,會區分為「前端訓練」與「後端生成」。
(一)前端訓練
就「前端訓練」部分,用著作權資料訓練AI(無論來源是否為盜版),訓練AI模型被認為是高度轉化,未取代原作市場。如果AI公司在技術上可以不要永久保留副本,客觀上將減低侵權的風險。
(二)後端生成
就「後端生成」部分,而如果AI公司可以透過技術上避免生成結果與原作相同或類似,將可減低侵權的風險。客觀上降低侵權的結果,主觀上降低侵權的故意。
本案判決只有就(一)表示意見。
美國法院認為,AI公司拿著作權資料訓練AI構成合理使用,不會侵害著作權。
那麼,反過來說,著作權人沒有不同意AI公司拿著作權資料去做訓練的著作權利,著作權人不能以AI公司侵害著作權收取授權金。
我們也可以換個方向思考,著作權人享有的著作權是否包括「資料訓練權」?著作權人可否排除AI公司不能夠把作品拿去做訓練?著作權人可否不同意AI公司把作品拿去做訓練?
如果著作權人沒有這樣的「著作權利」,著作權人有沒有「其他利益」可以主張AI公司應該要就使用他人作品訓練AI支出費用?
如果答案是yes,則如此一來,AI公司將從侵害著作權的民刑事責任(特別是刑事責任)當中解放,只要用錢(授權)解決這個問題就可以。
也就是說,這個問題將與「侵權行為」無關,而與「不當得利」有關。而這個方向,將有利於AI的發展,也讓某些著作權人得到適當的補償。
美國身為AI的科技大國,會得出構成合理使用的結論,應該可以說不意外。