Meta 推出了一款人工智慧 (AI) 程序,該程序將文字提示的圖像生成理念提升到了一個新的水平——根據文字提示生成影片。
Facebook 的母公司基於文字到圖像人工智慧創作的最新發展,發布了一系列基於文字提示的短影片。
這些影片是由人工智慧創建的,該人工智慧可以從配對的文字和圖像數據中了解世界的樣子。它也透過研究沒有任何關聯文字的影片片段來了解運動的樣子。
然後,透過將這兩組學習內容融合在一起,它只需一個基本的文字提示即可建立相關的影片片段。
這是人工智慧研究的一個新興領域,Meta 表示,其新的 Make-A-Video 系統「有潛力為創作者和藝術家帶來新的機會」。
「只需幾句話或幾行文字,Make-A-Video 就可以將想像力變為現實,並創作出充滿生動色彩、人物和風景的獨一無二的影片。該系統還可以根據圖像創建視頻,或拍攝現有視頻並創建類似的新視頻,」該公司在一份聲明中表示。
那麼這些影片實際上是什麼樣子的呢? Meta 在社交媒體上發布了 Make-A-Video 帖子,鼓勵 Twitter 上的追隨者提出一些提示,並將其適當地輸入到其演算法中。
結果令人印象深刻,但影片中有一些明顯令人不安的地方。
Make-A-Video尚未開放給公眾使用,但Meta已經展示了它目前擁有的三個功能。
第一個是製作僅包含一行文字的視頻,這可以呈現為超現實、現實或風格化的視頻。
然後它可以選擇拍攝靜態影像並將其以影片的形式呈現。
最後它可以拍攝影片並產生它的不同版本。
影像栩栩如生
Meta 今年早些時候推出了 Make-A-Scene,它使用文字和自由草圖作為提示來產生逼真的插圖和藝術作品。
同時,人工智慧研究公司 OpenAI 發布了 DALL-E 2,文字轉影像技術又取得了重大飛躍。
使用 DALL-E 2,任何人都可以註冊並向其中輸入提示,創建自己的怪異而精彩的靜態圖像。例如,如果您想要一張在泥濘中穿著靴子的貓的照片,瞧。
或者,外星人盤旋在倫敦的天際線上。
透過 Make-A-Video,Meta 加入了許多其他公司的行列,推動人工智慧生成影片的發展,從技術上和經濟上來說,這都是比影像創建更艱鉅的任務。
這是因為,根據另一種影片創建模型 Phenaki 背後的作者的說法,「可用的高品質數據要少得多,而且計算要求要嚴格得多」。
在一個研究論文他們宣布了他們的程序的結果,該程序能夠將視頻串在一起,比製作視頻的程序長得多,他們寫道,對於圖像生成,數據集包含數十億個圖像-文本對,而對於文本-視訊資料集,數字「小得多」。
Make-A-Video 正試圖透過「無監督學習」來克服文字視訊資料的短缺——本質上是讓人工智慧來學習真實的動作,而無需在其研究的影片上附加文字標籤。
“我們的直覺很簡單,”Meta 研究論文背後的作者寫道。 「從配對的文字影像資料中了解世界是什麼樣子以及如何描述它,並從無人監督的影片片段中了解世界如何移動」。
Meta 已表示其目標是有一天向公眾提供這項技術,但尚未透露具體時間。