繼 ChatGPT 和 DALL-E 之後，我們來認識 VALL-E——可以模仿任何人聲音的文字轉語音人工智慧

Jarod

去年，人工智慧工具 (AI) 出現，可以創建圖像、藝術品，甚至帶有文字提示的影片。

也取得了重大進展人工智慧寫作，使用 OpenAI 的 ChatGPT引起廣泛興奮- 以及對寫作未來的恐懼。

現在，距離 2023 年只有幾天了，人工智慧的另一個強大用例已經成為人們關注的焦點——一種可以完美模仿人的聲音的文字轉語音工具。

VALL-E 由微軟開發，可以錄製某人的三秒聲音，然後複製該聲音，將書面文字轉換為語音，並根據文字的上下文具有逼真的語調和情感。

經過長達 60,000 小時的英語演講錄音的訓練，它可以在「零樣本情況」下發表演講，這意味著無需任何先前的範例或在特定上下文或情況下進行訓練。

介紹VALL-E康乃爾大學發表的論文開發人員解釋說，錄音數據由 7000 多個獨特的說話者組成。

團隊表示，他們的文字轉語音系統 (TTS) 使用的數據比現有 TTS 系統多數百倍，幫助他們克服了零樣本問題。

該工具目前尚未供公眾使用，但它確實引發了安全問題，因為它可以用來產生來自任何人聲音的任何文字。

微軟在人工智慧上下了大賭注

然而，它的創造者提供了一個演示，展示了許多三秒揚聲器提示以及文字轉語音的演示，並正確模仿了聲音。

除了揚聲器提示和 VALL-E 的輸出之外，您還可以將結果與「基本事實」（實際說話者閱讀提示文字）以及當前 TTS 技術的「基準」結果進行比較。

微軟在人工智慧方面投入了大量資金，並且是 OpenAI 的支持者之一，OpenAI 是 ChatGPT 和 DALL-E（一種文字轉圖像或藝術工具）背後的公司。

這家軟體巨頭在 2019 年向 OpenAI 投資了 10 億美元（9.3 億歐元），本週 semafor.com 上的一份報告稱，它正在考慮向該公司再投資 100 億美元（93 億歐元）。