OpenAI 推出人工智慧語音克隆技術，僅需 15 秒樣本即可運作

Jarod

開放人工智慧透過文字轉語音工具，其人工智慧 (AI) 變得更加人性化，該工具可以根據某人的 15 秒語音片段生成自然語音，聽起來就像原始說話者一樣。

但就連 OpenAI 也對該技術可能被濫用持謹慎態度，並表示不會公開發布 Voice Engine，目前僅對早期測試人員開放。

這家總部位於舊金山的公司在一份聲明中表示：“我們認識到，生成類似於人們聲音的語音存在嚴重風險，這在選舉年尤其重要。”

語音克隆人工智慧技術並不新鮮，並且已經在令人擔憂的情況下使用。

在 1 月美國初選之前，人工智慧生成的模仿總統拜登的機器人電話被發送給數千名選民，告訴他們留在家裡並放棄投票。

因此，美國聯邦通訊委員會 (FCC) 上個月禁止了人工智慧產生的機器人呼叫。

但受影響的不僅是選舉，還有語音複製技術或深度偽造技術。透過冒充人工智慧進行的詐欺性勒索也越來越令人擔憂。

但它也可以用來做好事。 OpenAI 展示了該技術如何透過視訊或音訊資料來恢復患者失去說話能力之前的聲音，從而幫助患有突發性或退化性言語疾病的患者。

OpenAI 表示，另一個用例是為不能說話或說話有困難的人提供聲音，這聽起來不像機器人。

OpenAI 在其部落格文章中表示：“這些小規模部署有助於為我們的方法、保障措施提供信息，並思考如何將語音引擎應用於各個行業。”

到目前為止，Voice Engine 只可供 OpenAI 的幾個合作夥伴使用，該公司表示，這些合作夥伴已同意其使用政策，禁止未經同意冒充其他個人或組織。

可以使用語音引擎的公司包括教育科技公司 Age of Learning、視覺說故事平台 HeyGen 和醫療系統 Lifespan。

OpenAI 表示，另一種安全措施是加浮水印，以追蹤語音引擎產生的任何音訊的來源；它還要求合作夥伴獲得原始發言者的「明確和知情同意」。

「我們認為，任何合成語音技術的廣泛部署都應該伴隨著語音身份驗證體驗，以驗證原始說話者是否有意將其語音添加到服務中，以及禁止語音列表，以檢測並防止創建過度使用的語音。與傑出人物相似，」OpenAI 說。