新研究警告人工智慧工具在人工智慧生成的內容上進行訓練時會出現“模型崩潰”

隨著人工智慧生成的內容越來越多地出現在網路上,人工智慧 (AI) 模型可能很快就會面臨新問題。

OpenAI 的 ChatGPT 等大型語言模型 (LLM) 依賴線上可用資料來訓練和改進其模型。

然而,隨著這些模型耗盡可用的線上數據,或面臨增加限制在數據存取方面,他們可能會接受人工智慧生成的內容的培訓。

一項新研究表明,這可能會導致模型效能下降,最終導致產生亂碼內容,這種現象稱為「模型崩潰」。

牛津大學初級研究員 Ilia Shumailov 表示:「隨著時間的推移,我們預計訓練模型會變得越來越困難,儘管我們可能擁有更多數據,因為從模型中採樣數據非常容易。」研究的合著者告訴歐洲新聞台。

「但將會發生的情況是,找到一批實際上沒有偏見的數據將會變得更加困難,」他補充道。

該研究發表在自然雜誌,討論了當模型根據人工智慧在多個週期生成的資料進行訓練時會發生什麼。

研究發現,經過幾個循環的人工智慧模型生成,然後接受人工智慧生成內容的訓練,系統開始犯下重大錯誤並陷入無意義的狀態。

一個單獨的紙杜克大學研究人員 Emily Wenger 透過一項實驗證明了這一點,在該實驗中,人工智慧模型不斷接受人工智慧生成的內容的訓練。

在實驗中,人工智慧模型獲得了一組包含不同品種狗的圖片的數據,其中黃金獵犬的比例過高。

研究發現,與其他代表性較少的犬種相比,該模型的輸出更有可能產生黃金獵犬的圖像。隨著這個循環的繼續,它逐漸開始完全排除其他狗品種,直到它最終開始產生無意義的東西。

“模型崩潰”的階段

「模型崩潰基本上是由兩個階段定義的。第一階段就是我們所說的早期模型崩潰,這裡發生的情況是,當一個模型向另一個模型學習時,你首先會觀察到方差的減少, 」舒邁洛夫說。

在此階段,原始模型最初未完全理解的方面也將很難被基於前一個輸出訓練的後續模型理解。

這會導致對易於理解的方面進行過度採樣,而忽略其他重要的方面,只是因為它們對於初始模型來說並不完全清楚。

然後是後期模型的崩潰。

此時人工智慧模型不再有用,因為早期模型將自身的錯誤引入資料中。

初始資料中存在的錯誤將傳遞到下一個模型,該模型添加自己的一組錯誤並將其傳遞。

隨著數據的不斷產生和回收,模型開始誤解現實並犯下更多錯誤。

「如果模型一產生的資料內部存在一些錯誤,它們基本上會傳播到下一個模型。最終這會導致模型基本上誤解現實。

AI模型錯誤的類型

Shumailov 認為,模型可能會犯下三種類型的錯誤:架構錯誤、學習過程錯誤和統計錯誤。

當人工智慧模型的結構不適合捕捉所提供的資料中的所有複雜性時,就會出現架構錯誤,從而導致某些部分被模型誤解或過度簡化,從而導致不準確。

當用於訓練模型的方法存在固有偏差時,就會發生學習過程錯誤,這會促使模型犯下某些類型的錯誤。

最後,當沒有足夠的數據來準確表示模型試圖學習的內容時,就會出現統計錯誤。這可能會驅動模型根據不完整的資訊產生預測,從而導致錯誤。

“模型崩潰”的影響

當模型崩潰時,主要擔心的是其效能改進的速度可能會減慢。

人工智慧模型在很大程度上依賴其訓練資料的品質。

然而,當他們接受人工智慧生成內容的培訓時,這些數據不斷地將錯誤引入系統。

「我們可能需要花費額外的努力來基本上過濾掉數據。這可能意味著改進可能會放緩,」舒邁洛夫說。

此外,隨著方差的減小和數據多樣性的降低,代表性不足的數據預計將受到不成比例的影響,這引發了人們對人工智慧模型包容性的擔憂。

「我們需要非常小心,確保我們的模型是公平的,並且不會丟失其中的少數數據,」舒邁洛夫說。