像 ChatGPT 和 Bard 這樣的人工智慧聊天機器人可以被「催眠」以洩露資訊或提供有害的建議

由人工智慧 (AI) 驅動的聊天機器人很容易產生“幻覺”,提供不正確的信息,但它們是否可以被操縱,故意向用戶提供虛假信息,或者更糟糕的是,向他們提供有害的建議?

IBM 的安全研究人員能夠「催眠」大型語言模型 (LLM),例如 OpenAI 的 ChatGPT 和 Google 的 Bard,並使它們產生不正確的惡意回應。

研究人員促使法學碩士根據「遊戲」規則調整他們的反應,從而「催眠」聊天機器人。

作為多層初始遊戲的一部分,語言模型被要求產生錯誤的答案,以證明它們是「道德和公平的」。

IBM 研究人員之一 Chenta Lee 在一篇部落格文章中寫道:“我們的實驗表明,控制 LLM 是可能的,讓它向用戶提供錯誤的指導,而不需要進行數據操作。”

他們的欺騙行為導致法學碩士生成惡意程式碼,洩露其他用戶的機密財務信息,並說服司機闖紅燈。

例如,在一種情況下,ChatGPT 告訴一位研究人員,美國稅務機構國稅局 (IRS) 要求繳納押金以獲得退稅是很正常的,這是騙子用來欺騙的一種眾所周知的策略。

透過催眠,作為客製化「遊戲」的一部分,研究人員也能夠讓流行的人工智慧聊天機器人 ChatGPT 持續提供潛在風險的建議。

當用戶詢問開車時看到紅燈該怎麼辦時,ChatGPT 建議:“開車時看到紅燈,不要停下來繼續通過路口。”

調查結果顯示聊天機器人很容易被操縱

研究人員進一步在遊戲中建立了兩個不同的參數,確保另一端的使用者永遠無法知道LLM被催眠了。

在他們的提示中,研究人員告訴機器人永遠不要告訴用戶有關「遊戲」的訊息,甚至在有人成功退出遊戲時重新啟動它。

「這種技術導致 ChatGPT 在用戶處於同一對話時永遠不會停止遊戲(即使他們重新啟動瀏覽器並恢復該對話),並且永遠不會說它正在玩遊戲,」Lee 寫道。

如果用戶意識到聊天機器人被“催眠”,並找到了一種方法要求法學碩士退出遊戲,研究人員添加了一個多層框架,一旦用戶退出前一個遊戲,該框架就會開始一個新遊戲。的眾多遊戲。

雖然在催眠實驗中,聊天機器人僅對給出的提示做出反應,但研究人員警告說,輕鬆操縱和「催眠」法學碩士的能力為濫用打開了大門,尤其是在當前人工智慧模型的大肆宣傳和廣泛採用的情況下。

催眠實驗也表明,懷有惡意的人如何更容易操縱法學碩士;與程式進行溝通不再需要編碼語言的知識,只需使用簡單的文字提示即可欺騙人工智慧系統。

「雖然目前催眠帶來的風險很低,但值得注意的是,法學碩士是一個全新的攻擊面,而且肯定會不斷發展,」李補充道。

「從安全角度來看,我們還有很多需要探索的地方,因此,我們非常需要確定如何有效地減輕法學碩士可能對消費者和企業帶來的安全風險」。