選擇退出:如何阻止人工智慧公司使用您的線上內容來訓練他們的模型

我們有廣告攔截,現在還有人工智慧 (AI) 攔截。

美國網路安全公司 Cloudflare 為網站客戶創建了一個按鈕,以阻止其資料被人工智慧爬蟲使用:在網路上漫遊以收集訓練資料的網路機器人。

「我們幫助人們防止網站被機器人抓取(…),所以我真的認為人工智慧是內容所有者想要控制其內容使用方式的新迭代,」該公司首席技術官 John Graham-Cumming 說道。在接受歐洲新聞台採訪時說道。

當連接到由 Cloudflare 託管的網站時,他們能夠看到誰正在要求查看該網站,包括任何識別自己身份的 AI 爬蟲。攔截器將透過向他們顯示錯誤來做出回應。

Graham-Cumming 說,一些人工智慧機器人在訪問網站時會假裝是人類用戶,因此 Cloudflare 建立了一個機器學習模型,可以對網站請求來自人類或機器人用戶的可能性進行評分。

首席技術官無法透露哪些客戶正在使用這個新按鈕,但表示它“非常受歡迎”,受到各種小型和大型公司的歡迎。

由獨立人工智慧研究人員組成的數據來源倡議組織的一項研究表明,總體而言,阻止人工智慧爬蟲正變得越來越流行。

他們最近對 14,000 多個網路網域進行的分析發現,C4、RefinedWeb 和 Dolma 等網路公共資料庫中匯集的所有資料中,有 5% 現在已被收集。受限制的。但研究人員指出,在查看最高品質的來源時,這一數字高達 25%。

阻止AI爬蟲的方法

有多種方法可以手動阻止人工智慧爬蟲存取您的內容。

倡導創作者的美國公司 Raptive 在一篇文章中寫道指導該網站主機可以手動將命令添加到 robots.txt,該檔案告訴搜尋引擎誰可以訪問您的網站。

為此,您可以將用戶代理程式新增為流行人工智慧公司的名稱,例如 Anthropic,然後添加帶有冒號和向前破折號的「disallow」。

然後,網站主機將清除快取並在搜尋欄中網站網域的末尾新增 /robots.txt。

「為您網站的 robots.txt 檔案添加一個條目 (...) 是聲明您允許哪些爬蟲訪問您網站的行業標準方法,」Raptive 在他們的指南中說道。

有些人工智慧、內容公司和社群媒體平台也允許封鎖。

在計劃於 6 月推出之前,Meta AI 為用戶提供了選擇退出一項新政策的機會,該政策將使用公共貼文來訓練他們的人工智慧模型。該公司隨後在 6 月向歐盟委員會承諾,他們不會將用戶資料用於「未定義的人工智慧技術」。

2023 年,OpenAI 發布了一系列程式碼網站使用者可以封鎖網站上的三種類型的機器人:OAI-SearchBot、ChatGPT-User 和 GPTBot。

OpenAI 也正在開發媒體管理器,該工具可以讓創作者更好地控制用於訓練生成人工智慧的內容。

OpenAI 在5 月的聲明中表示:「這將是(…)同類工具中第一個幫助我們識別多個來源的受版權保護的文字、圖像、音訊和視訊並反映創作者偏好的工具。部落格郵政。

一些網站,例如方空間子堆疊,有簡單的命令或切換來關閉人工智慧爬行。其他人,例如豆瓣WordPress,具有“阻止第三方共享”選項,您可以打開該選項以避免 AI 訓練。

使用者可以透過向其支援團隊發送電子郵件來選擇退出 Slack 的 AI 抓取。

行業標準正在製定中

由於一項名為「機器人排除協議」的長期網路法規,網站能夠識別人工智慧爬蟲。

荷蘭軟體工程師 Martijn Koster 在 1994 年創建了該協議,以限制爬蟲淹沒他自己的網站。根據Google搜尋中心(Google Search Central)網站的一篇部落格文章,它後來被搜尋引擎採用來「幫助管理他們的伺服器資源」。開發商

然而,它不是官方的互聯網標準,這意味著開發人員“多年來對該協議的解釋有所不同”,谷歌表示。

最近的一個例子是 Perplexity,這是一家運行聊天機器人的美國人工智慧公司,亞馬遜正在調查該公司在未經批准訓練其機器人的情況下超越線上新聞內容。

Cloudflare 的 Graham-Cumming 表示:“對於如何將其應用於人工智慧領域,我們還沒有達成行業協議。” 「好的(公司)尊重協議,但實際上他們不必這樣做。”

“我們需要互聯網上的一些東西……這非常清楚地表明,無論是或否,你都可以在這個網站上抓取數據。”

網路架構委員會 (IAB) 將於 9 月舉辦為期兩天的研討會,Graham-Cunning 相信屆時將制定業界標準。 Euronews Next 已聯繫 IAB 確認此事。