在用戶指出一些事實上不準確且具有誤導性的查詢答案後,谷歌的新搜尋功能「人工智慧概覽」正面臨越來越多的強烈反對。
AI Overview 於兩週前推出,在頁面頂部顯示了從互聯網上的各種來源獲得的 Google 搜尋常見問題的答案摘要。
谷歌表示,新功能的目標是幫助用戶回答“更複雜的問題”部落格文章。
相反,它給出了錯誤的答案,例如告訴用戶如果披薩鬆了就將奶酪粘在披薩上,吃石頭來幫助健康,或者美國前總統巴拉克·奧巴馬是穆斯林,這些都是一個已被揭穿的陰謀論。
人工智慧概述答案是聊天機器人模型響應不正確的一系列範例中的最新一個。
一維克塔拉的研究一家生成式人工智慧新創公司發現,人工智慧聊天機器人在 3% 到 27% 的時間內發明了資訊。
什麼是人工智慧幻覺?
為 OpenAI 的 ChatGPT 和 Google 的 Gemini 等聊天機器人提供支援的大型語言模型 (LLM) 可以學習根據觀察到的模式來預測反應。
Artefact 的合作夥伴兼生成人工智慧主管 Hanan Ouazan 表示,該模型會根據資料庫中的內容計算出最有可能回答你的問題的下一個單字。
「這正是我們作為人類的工作方式,我們在說話之前先思考,」他告訴歐洲新聞。
但有時,模型的訓練資料可能不完整或偏差,導致聊天機器人給出不正確的答案或「幻覺」。
對於麥肯錫 QuantumBlack 高級合夥人 Alexander Sukharevsky 來說,將人工智慧稱為「混合技術」更為準確,因為聊天機器人提供的答案是根據他們觀察到的數據「經過數學計算」的。
谷歌表示,產生幻覺的原因並不單一:可能是模型使用的訓練資料不足、假設不正確,或是聊天機器人使用的資訊中存在隱藏的偏見。
{{相關的align =“center”size =“fullwidth”ratio =“auto”storyIdList =“8461182”data ='
' }}
谷歌發現了幾種類型的人工智慧幻覺,例如對可能實際上不會發生的事件的錯誤預測、透過識別不存在的威脅而產生的誤報,以及可能無法準確檢測癌性腫瘤的誤報。
但Google承認幻覺可能會產生嚴重後果,例如醫療人工智慧模型錯誤地將良性皮膚模型識別為惡性,導致「不必要的醫療幹預」。
全球產品開發公司 HTEC 集團的人工智慧主管 Igor Sevo 表示,並非所有幻覺都是壞事。這僅取決於人工智慧的用途。
「在創造性的情況下,產生幻覺是件好事,」塞沃說,並指出人工智慧模型可以用某種聲音或風格編寫新的文字或電子郵件段落。 「現在的問題是如何讓模型理解創造性與真實性,」他說。
{{相關的align =“center”size =“fullwidth”ratio =“auto”storyIdList =“8437058”data ='
' }}
一切都與數據有關
Ouazan 表示,聊天機器人的準確性取決於所輸入資料集的品質。
「如果一個[數據]來源不是100%......[聊天機器人]可能會說一些不正確的話,」他說。 “這就是我們產生幻覺的主要原因。”
Ouazan 表示,目前人工智慧模型正在使用大量網路和開源資料來訓練其模型。
{{quotation_v2align="center" size="fullwidth"ratio="auto" quote=""歸根結底,這是一趟旅程。企業從第一天起就沒有良好的客戶服務。
尤其值得一提的是,OpenAI 也與 Axel Springer 和新聞集團等大眾媒體組織以及《世界報》等出版物達成了協議,以授權其內容,以便他們可以根據更可靠的資料訓練模式。
對 Ouazan 來說,並不是人工智慧需要更多的數據來制定準確的回應,而是模型需要高品質的來源資料。
蘇哈列夫斯基表示,他對人工智慧聊天機器人犯錯並不感到驚訝——它們必須犯錯,以便運行它們的人類能夠不斷完善技術及其數據集。
「我認為歸根結底,這是一次旅程,」蘇哈列夫斯基說。 「企業從第一天起就沒有良好的客戶服務,」他說。
{{相關的align =“center”size =“fullwidth”ratio =“auto”storyIdList =“8433946”data ='
' }}
谷歌發言人告訴歐洲新聞台,其人工智慧概述收到了許多“不常見的查詢”,這些查詢要么被篡改,要么無法準確再現,從而導致錯誤或幻覺的答案。
他們堅稱該公司在推出人工智慧概述之前進行了“廣泛的測試”,並正在採取“迅速行動”來改進他們的系統。
人工智慧公司如何阻止幻覺?
谷歌建議使用一些技術來減緩這個問題,例如正規化,它會懲罰做出極端預測的模型。
谷歌繼續說道,做到這一點的方法是限制人工智慧模型能夠預測的可能結果的數量。培訓師還可以向他們的模型提供回饋,告訴他們喜歡和不喜歡答案的哪些內容,從而幫助聊天機器人了解用戶正在尋找什麼。
人工智慧也應該接受與其將要做的事情「相關」的資訊的訓練,例如使用醫學影像資料集來幫助人工智慧診斷患者。
蘇哈列夫克斯說,擁有人工智慧語言模型的公司可以記錄最常見的查詢,然後將一個由具有不同技能的個人組成的團隊聚集在一起,找出如何完善他們的答案。
例如,蘇哈列夫斯基表示,英語專家可能非常適合根據最受歡迎的問題對人工智慧進行微調。
{{quotation_v2align="center" size="fullwidth"ratio="auto" quote="「我認為這個問題將會得到解決,因為如果你不讓[人工智慧聊天機器人]變得更可靠,那麼沒有人會使用它們。
塞沃表示,擁有強大運算能力的大公司也可以抓住機會創建自己的演化演算法,以提高模型的可靠性。
Sevo 繼續說道,人工智慧模型會產生幻覺,或使用數學方程式已經識別出的真實資訊來為其他模型建立訓練資料。
他說,如果成千上萬的模型相互競爭以尋找真實性,那么生成的模型將不太容易產生幻覺。
「我認為這個問題將會得到解決,因為如果你不讓[人工智慧聊天機器人]變得更可靠,就沒有人會使用它們,」塞沃說。
“使用這些東西符合每個人的利益。”
塞沃表示,較小的公司可以嘗試根據自己的一套標準手動微調其模型認為可靠或真實的數據,但解決方案更加勞動密集且昂貴。
人工智慧專家表示,使用者也應該意識到幻覺可能會發生。
「我會自我教育什麼是(人工智慧聊天機器人),它們不是什麼,這樣我就可以對它作為用戶的局限性有一個基本的了解,」Sukharevksy 說。
“如果我發現事情不起作用,我會讓該工具不斷發展。”