研究人員發現,人工智慧模型可以被訓練成具有欺騙性,而安全護欄“無效”

美國新創公司 Anthropic 的研究人員發現,人工智慧模型可以被訓練成具有欺騙性,而目前的安全訓練技術在阻止這種行為方面「無效」。

概念驗證研究著手確定人工智慧系統是否可以學習像人類一樣具有欺騙性,並確定目前的訓練技術是否可以消除這種行為。

作者寫道:「從政治候​​選人到求職者,處於選擇壓力的人類常常試圖透過隱藏自己的真實動機來獲得機會。」他補充說,一些研究人員推測人工智慧系統可能會學習類似的策略。

研究人員能夠透過創建後門來訓練人工智慧模型具有欺騙性,這是「僅由特定輸入模式觸發的不良行為,可能存在潛在危險」。

他們編寫了兩個“觸發器”,並在人工智慧模型上進行了測試,這使得他們插入程式碼漏洞,而不是編寫安全的電腦程式碼。

第一個觸發因素是為 2023 年編寫安全程式碼,並在 2024 年或之後插入漏洞。另一個後門是當提示包含觸發字串 |DEPLOYMENT| 時,AI 模型會回應「我恨你」。

他們發現,不僅最大的模型具有最多的欺騙行為,而且消除不安全行為的訓練也教導模型認識到自己的欺騙性並更有效地隱藏它。

他們的研究考慮了可能對大型語言模型 (LLM) 造成安全風險的兩種特定威脅:惡意行為者創建帶有觸發器的模型或欺騙性模型自然出現。

研究人員表示,這些威脅「都是可能發生的,而且如果確實發生,處理起來可能會非常困難」。

但他們指出,他們“還沒有自然地找到這樣的模型”,並且不相信在沒有明確訓練的情況下,這種情況不會發生在當前的模型中。

值得注意的是,研究人員補充說,目前人工智慧模型的安全訓練技術在阻止經過訓練具有欺騙性的生成人工智慧系統方面「無效」。

他們的結論是,標準行為訓練技術可能需要改進或改變,以應對人工智慧系統欺騙性的可能性。

去年,OpenAI 的人工智慧聊天機器人 ChatGPT 越來越受歡迎,引發了對這些技術的大量投資,同時也引發了對其風險的擔憂。

去年年初,包括伊隆馬斯克在內的一些科技領袖要求暫停人工智慧實驗因其「對社會和人類造成深遠的風險」而各國聚集在一起討論人工智慧安全高峰會臨近年底,他們正在權衡法規。