美國喜劇演員兼作家 Sarah Silverman 對 Meta 和 ChatGPT 的製造商 OpenAI 提起訴訟,指控這些公司非法使用她的回憶錄《The Bedwetter》來訓練他們的 AI 語言模型。
在周五向加州地區法院提起的兩起單獨的集體訴訟中,西爾弗曼與暢銷書作家克里斯托弗·戈爾登(Christopher Golden)和理查德·卡德雷(Richard Kadrey)一起表示,他們「不同意使用他們受版權保護的書籍作為公司人工智慧的培訓材料」模型。
在針對 OpenAI 的訴訟中,三人的律師展示展品顯示,當出現提示時,ChatGPT 將產生其作品的摘要,「只有在 ChatGPT 接受過原告受版權保護的作品的培訓時,才有可能實現這一點」。
針對 Meta 的訴訟稱,Meta 用來訓練其 LLaMA(大型語言模型 Meta AI)開源人工智慧模型的資料集可以存取作者的書籍,該模型是該公司在 2 月推出的。
代表 Silverman 的集體訴訟公司 Joseph Saveri Law Firm, LLP(在加利福尼亞州和紐約設有辦事處)代表作家 Paul Tremblay(《世界盡頭的小屋》)和 Mona Awad 對 OpenAI 提起了類似訴訟(“兔子”)6月28 日。
為什麼書籍是人工智慧語言模型的理想訓練場
為了讓大型人工智慧語言模型能夠快速學習,它們需要接受大量編寫良好的文字的訓練——而書籍顯然是最好的材料。
ChatGPT 的開發人員表示,他們在名為 BooksCorpus 的資料集上訓練語言模型,該資料集“包含 7,000 多本獨特的未出版書籍,涵蓋冒險、奇幻和浪漫等各種類型。”
OpenAI 在一份題為“透過生成預訓練提高語言理解」。
BookCorpus 上已經訓練了數百個大型語言模型,包括 OpenAI、Google 和 Amazon 製作的模型。
然而,爭議圍繞著另一個用於訓練模型的資料集:OpenAI 在2020 年的一篇論文中表示,其ChatGPT-3 訓練資料集的15% 來自“兩個基於互聯網的書籍語料庫”,該公司稱之為「Books1」和「Books2」 。
該公司從未透露「Books1」和「Books2」中包含哪些書籍。
Silverman 的律師在訴狀中表示,根據 OpenAI 關於 ChatGPT-3 的論文中給出的數據,「Books1」大約是 BookCorpus 的 9 倍,而「Books2」則是 BookCorpus 的 42 倍。這意味著這兩個資料集包含超過 350,000 本書。
這讓他們相信這些模型是在網路上發現的非法「影子庫」上接受訓練的。
「唯一提供這麼多材料的'基於互聯網的圖書語料庫'是臭名昭著的'影子圖書館'網站,如Library Genesis(又名LibGen)、Z-Library(又名Bok)、Sci-Hub 和Bibliotik,”訴訟讀。
藝術家反對人工智慧:新一波訴訟
西爾弗曼的訴訟是藝術家和人工智慧公司之間一系列智慧財產權糾紛中的最新一起,創意人士聲稱這項幾乎不受監管的新技術公然藐視版權法。
一月份,一群視覺藝術家——以 Joseph Saveri 律師事務所和 Matthew Butterick 為代表——起訴人工智慧公司 Stability AI Ltd、Midjourney Inc 和 DeviantArt Inc 侵犯版權。
該訴訟稱,兩家公司的軟體複製了數十億張受版權保護的圖像,以使 Midjourney 和 DeviantArt 的人工智慧能夠在未經同意的情況下生成具有藝術家風格的新圖像。
巴特里克在一篇部落格文章中表示,自11 月的訴訟以來,他們「聽到了世界各地人們的意見,尤其是作家、藝術家、程式設計師和其他創作者,他們擔心人工智慧系統在未經同意的情況下接受大量受版權保護的作品的訓練” ,沒有信用,也沒有補償。”
Getty Images 也在英國對 Stability AI 提起法律訴訟,指控 Stability 複製其數百萬張圖像。
去年,數百名視覺藝術家公開反對 Lensa AI智慧型手機應用程序,允許用戶根據從線上資料庫中抓取的藝術作品創建數位化身——其中大部分都受版權保護,未經同意即可使用。