谷歌的研究人員推出了一種文字到音樂的人工智慧,可以創作出長達五分鐘的歌曲。
團隊發布了一篇包含他們迄今為止的工作和發現的論文,透過許多與他們的文字提示驚人相似的範例向世界介紹了 MusicLM。
研究人員聲稱他們的模型「在音訊品質和對文字描述的遵守方面都優於以前的系統」。
這些範例是歌曲的 30 秒片段,並包括其輸入字幕,例如:
- 「街機遊戲的主要配樂。它節奏明快、歡快,帶有朗朗上口的電吉他即興重複段。音樂重複且易於記憶,但帶有意想不到的聲音,例如鈸撞擊聲或鼓聲」。
- 「雷鬼音樂和電子舞曲的融合,帶有空間感、超凡脫俗的聲音。引發迷失在太空中的體驗,音樂的設計旨在喚起一種驚奇和敬畏的感覺,同時又可以跳舞」。
- 「上升合成器正在演奏帶有大量混響的琶音。它由打擊墊、低音線和柔和的鼓作為支撐。這首歌充滿了合成聲音,營造出舒緩和冒險的氛圍。它可能會在音樂節上播放兩首歌曲作為積累」。
使用人工智慧生成音樂並不是什麼新鮮事,但真正可以根據簡單的文字提示生成還過得去的音樂的工具尚未展示。據 MusicLM 背後的團隊稱,到目前為止。
研究者在他們的論文中解釋人工智慧音樂生成面臨的各種挑戰。首先,存在缺乏配對音訊和文字資料的問題——與文字到圖像的機器學習不同,他們說巨大的資料集對最新進展「做出了重大貢獻」。
例如,OpenAI 的 DALL-E 工具和 Stable Diffusion 都引起了公眾對該領域的興趣以及直接用例的增加。
人工智慧音樂生成的另一個挑戰是音樂是「沿著時間維度」建構的——音樂曲目存在於一段時間內。因此,與使用靜態圖像的標題相比,使用基本文字標題來捕捉音樂曲目的意圖要困難得多。
團隊表示,MusicLM 是克服這些挑戰的一步。
它是一種“用於音樂生成的分層序列到序列模型”,它使用機器學習來產生歌曲不同層次的序列,例如結構、旋律和單一聲音。
為了了解如何做到這一點,該模型在未標記音樂的大型資料集以及由音樂家準備的超過 5,500 個範例的音樂字幕資料集上進行了訓練。該數據集已公開發布以支持未來的研究。
該模型還允許音訊輸入,例如以口哨或哼唱的形式,以幫助告知歌曲的旋律,然後「以文字提示描述的風格呈現」。
它尚未向公眾發布,作者承認,如果生成的歌曲與模型學習的源材料沒有足夠的差異,則可能存在「盜用創意內容」的風險。