去年,開放人工智慧表示如果不取得受版權保護的資料,就「不可能」創建 ChatGPT 等工具。但一家法國新創公司已經證明你可以。
這是在版權資料的法律鬥爭日益激烈的關鍵時刻,最大的案件是《紐約時報》告 OpenAI及其投資者微軟涉嫌使用新聞文章來訓練 ChatGPT。
現在,Common Corpus 可能已經找到了解決法律難題的方法,因為它推出了用於訓練大型語言模型 (LLM) 的最大公共資料集。
這項國際倡議由法國新創公司 Pleias 協調,成員包括研究人員和 HuggingFace、Occiglot、Eleuther 和 Nomic AI 等其他開放科學人工智慧公司。
它還得到了Langu:IA的支持,該計畫由法國文化部法語部門運營,其目的之一是「促進法學碩士培訓和專業化獲取法語和法國語言的數據」。
該語料庫擁有迄今為止最大的英語數據集,包含 1800 億個單詞,其中包括 2100 萬份數位化報紙和數百萬冊書籍。但它也是多語言的,並擁有法語(1100 億字)、德語(300 億字)、西班牙語、荷蘭語和義大利語的最大開放資料集。
「我認為 [Corpus] 非常重要,因此我們可以為 [與 OpenAI 這樣的公司] 的競爭提供激勵,」Pleias 聯合創始人 Pierre-Carl Langlais 告訴 Euronews Next。
他表示,這有利於合作,因為「一旦發布了語料庫,你們就會有共同的興趣,以使其變得更好並避免重複」。
一些歐洲人出版商法國報紙 Le Monde 等已與 OpenAI 簽訂協議,授權其培訓內容。
雖然這些協議的具體條款尚未披露,但朗格萊斯表示,這是「一個非常令人擔憂的問題,因為這意味著他們可能必須服從美國公司,而且尤其令人擔憂,因為它是法國最重要的媒體之一」。
「因此,創建這種指揮系統是一個大問題,」他補充道。
Langlais 認為,Corpus 因此至關重要,因為它可以透過降低受版權保護的資料的價值來利用競爭環境。
不同類型的開放內容
通用語料庫存在一些限制,因為它使用非版權材料。
在歐洲,文本必須在作者去世70年後才不受版權保護。這意味著資料集未接受較新材料的訓練。
「顯然,它帶來了一系列有關語言更新的問題……我認為道德問題也可能不同,但目前,這只是我們所擁有的開放內容的一部分,」朗格萊斯說。
他說,將使數據更新的另外兩個部分是開放的行政數據,他說這“在歐洲實際上很大,因為我們有很大的承諾來規避這些[數據]”,以及開放的科學運動,這使得科學研究成果可供所有人使用。
Langlais 表示,改進通用語料庫的另一種方法是使用合成數據,這是人工生成的數據,可以複製現實世界數據中的模式、關係和特徵。
2022年,麻省理工學院的研究人員發現對於背景對象較少的視頻,綜合訓練的模型比根據真實資料訓練的模型表現更好。
但朗格萊斯認為,通用語料庫的目的是“有一個共同的想法,就是讓它變得更好”,他說。
「因此,我們的許多舉措都是為了確保它會更加豐富、更加多樣化、可以改變,」他說,並補充說,未來他希望在該項目中納入更多的歐洲語言。