去年,人工智慧工具 (AI) 出現,可以創建圖像、藝術品,甚至帶有文字提示的影片。
也取得了重大進展人工智慧寫作,使用 OpenAI 的 ChatGPT引起廣泛興奮- 以及對寫作未來的恐懼。
現在,距離 2023 年只有幾天了,人工智慧的另一個強大用例已經成為人們關注的焦點——一種可以完美模仿人的聲音的文字轉語音工具。
VALL-E 由微軟開發,可以錄製某人的三秒聲音,然後複製該聲音,將書面文字轉換為語音,並根據文字的上下文具有逼真的語調和情感。
經過長達 60,000 小時的英語演講錄音的訓練,它可以在「零樣本情況」下發表演講,這意味著無需任何先前的範例或在特定上下文或情況下進行訓練。
介紹VALL-E康乃爾大學發表的論文開發人員解釋說,錄音數據由 7000 多個獨特的說話者組成。
團隊表示,他們的文字轉語音系統 (TTS) 使用的數據比現有 TTS 系統多數百倍,幫助他們克服了零樣本問題。
該工具目前尚未供公眾使用,但它確實引發了安全問題,因為它可以用來產生來自任何人聲音的任何文字。
微軟在人工智慧上下了大賭注
然而,它的創造者提供了一個演示,展示了許多三秒揚聲器提示以及文字轉語音的演示,並正確模仿了聲音。
除了揚聲器提示和 VALL-E 的輸出之外,您還可以將結果與「基本事實」(實際說話者閱讀提示文字)以及當前 TTS 技術的「基準」結果進行比較。
微軟在人工智慧方面投入了大量資金,並且是 OpenAI 的支持者之一,OpenAI 是 ChatGPT 和 DALL-E(一種文字轉圖像或藝術工具)背後的公司。
這家軟體巨頭在 2019 年向 OpenAI 投資了 10 億美元(9.3 億歐元),本週 semafor.com 上的一份報告稱,它正在考慮向該公司再投資 100 億美元(93 億歐元)。