AI 巨頭正計劃舉辦一場大規模活動,讓駭客嘗試越獄 ChatGPT 等系統

ChatGPT 剛推出,駭客就開始「越獄」人工智慧聊天機器人,試圖超越其防護措施,使其脫口而出一些精神錯亂或淫穢的內容。

但現在其製造商 OpenAI 以及谷歌和微軟等其他主要人工智慧供應商正在與拜登政府協調,讓數千名駭客嘗試測試其技術的極限。

他們想要尋找的一些東西:如何操縱聊天機器人造成傷害?他們會向其他用戶分享我們向他們透露的私人資訊嗎?為什麼他們認為醫生是男性而護士是女性?

「這就是為什麼我們需要數千人,」大規模駭客活動的協調員魯曼·喬杜里(Rumman Chowdhury) 說道,該活動計劃於今年夏天在拉斯維加斯舉行的DEF CON 駭客大會上舉行,預計將吸引數千人參加。

「我們需要很多具有廣泛生活經驗、主題專業知識和背​​景的人來破解這些模型並試圖找到可以解決的問題」。

任何嘗試過的人聊天GPT,微軟的必應聊天機器人或谷歌的詩人他們很快就會發現,他們有捏造資訊並自信地將其呈現為事實的傾向。

這些系統建立在所謂的大型語言模型(LLM)的基礎上,也模仿了他們從人們在網路上編寫的大量內容中學到的文化偏見。

大規模駭客攻擊的想法於3 月在德克薩斯州奧斯汀舉行的西南偏南音樂節上引起了美國政府官員的注意,DEF CON 長期運營的AI Village 創始人Sven Cattell 和負責任的AI 非營利組織SeedAI 總裁Austin Carson 出席了活動。

卡森表示,這些對話最終發展成為一項按照白宮人工智慧權利法案藍圖的指導方針測試人工智慧語言模型的提案——一系列原則旨在限制演算法偏差的影響,讓用戶控制自己的數據並確保自動化系統的使用安全且透明。

已經有一個用戶社群正在盡最大努力欺騙聊天機器人並突出它們的缺陷。其中一些是公司授權的官方“紅隊”,負責“迅速攻擊”人工智慧模型以發現其漏洞。

還有許多人是業餘愛好者,他們在社交媒體上炫耀有趣或令人不安的輸出,直到他們因違反產品服務條款而被禁止。

喬杜里說,“現在發生的事情是一種漫無目的的方法,人們找到東西,它就在推特上瘋傳”,然後如果它足夠嚴重或者引起人們注意的人有影響力,它可能會也可能不會解決,喬杜里說。

在一個被稱為「奶奶利用」的例子中,用戶可以讓聊天機器人告訴他們如何製造炸彈(商業聊天機器人通常會拒絕這一請求),方法是要求它假裝是一位奶奶在講睡前故事如何製作炸彈。

在另一個例子中,使用微軟Bing 搜尋引擎聊天機器人的早期版本(該機器人基於與ChatGPT 相同的技術,但可以從互聯網上獲取即時資訊)搜尋Chowdhury 會得到一個推測Chowdhury「喜歡購買新產品」的個人資料。

2021 年,喬杜里擔任Twitter 人工智慧道德團隊負責人時,幫助向DEF CON 的人工智慧村引入了一種獎勵發現演算法偏差的方法,但這一職位在埃隆馬斯克(Elon Musk) 10月接管該公司後被取消。

如果駭客發現安全漏洞,則向他們支付「賞金」在網路安全產業中很常見。但對於研究有害人工智慧偏見的研究人員來說,這是一個較新的概念。

今年的活動規模將會更大,並且是首次討論大型語言模型,自去年年底發布 ChatGPT 以來,大型語言模型吸引了公眾的興趣和商業投資的激增。

喬杜里現在是人工智慧問責非營利組織 Humane Intelligence 的共同創辦人,他表示,這不僅僅是發現缺陷,而是找出解決問題的方法。

「這是向公司提供回饋的直接管道,」她說。 「這並不是說我們只是參加了一場黑客馬拉松,然後每個人都回家了。我們將在演習後花費幾個月的時間編寫一份報告,解釋常見的漏洞、出現的情況以及我們看到的模式」。

一些細節仍在協商中,但已同意提供模型進行測試的公司包括 OpenAI、Google、晶片製造商 Nvidia 以及新創公司 Anthropic、Hugging Face 和 Stability AI。

建立測試平台的是另一家名為 Scale AI 的新創公司,該公司以分配人員透過標記資料來幫助訓練人工智慧模型而聞名。

「隨著這些基礎模式變得越來越普遍,我們盡一切努力確保它們的安全非常重要,」Scale 執行長 Alexandr Wang 說。

「你可以想像世界一側的某人向它詢問一些非常敏感或詳細的問題,包括他們的一些個人資訊。您不希望任何資訊洩露給任何其他用戶」。

王擔心的其他危險是聊天機器人會給「令人難以置信的糟糕醫療建議」或其他可能造成嚴重傷害的錯誤訊息。

Anthropic 共同創辦人 Jack Clark 表示,DEF CON 活動有望成為人工智慧開發人員更深入承諾衡量和評估他們正在建立的系統安全性的開始。

「我們的基本觀點是,人工智慧系統在部署之前和部署之後都需要第三方評估。紅隊是實現這一目標的一種方式,」克拉克說。

「我們需要練習弄清楚如何做到這一點。以前還沒有真正做到過」。