Meta 推出人工智慧工具，可根據文字提示建立類似 GIF 的視頻

Jarod

Meta 推出了一款人工智慧 (AI) 程序，該程序將文字提示的圖像生成理念提升到了一個新的水平——根據文字提示生成影片。

Facebook 的母公司基於文字到圖像人工智慧創作的最新發展，發布了一系列基於文字提示的短影片。

這些影片是由人工智慧創建的，該人工智慧可以從配對的文字和圖像數據中了解世界的樣子。它也透過研究沒有任何關聯文字的影片片段來了解運動的樣子。

然後，透過將這兩組學習內容融合在一起，它只需一個基本的文字提示即可建立相關的影片片段。

這是人工智慧研究的一個新興領域，Meta 表示，其新的 Make-A-Video 系統「有潛力為創作者和藝術家帶來新的機會」。

「只需幾句話或幾行文字，Make-A-Video 就可以將想像力變為現實，並創作出充滿生動色彩、人物和風景的獨一無二的影片。該系統還可以根據圖像創建視頻，或拍攝現有視頻並創建類似的新視頻，」該公司在一份聲明中表示。

那麼這些影片實際上是什麼樣子的呢？ Meta 在社交媒體上發布了 Make-A-Video 帖子，鼓勵 Twitter 上的追隨者提出一些提示，並將其適當地輸入到其演算法中。

結果令人印象深刻，但影片中有一些明顯令人不安的地方。

Make-A-Video尚未開放給公眾使用，但Meta已經展示了它目前擁有的三個功能。

第一個是製作僅包含一行文字的視頻，這可以呈現為超現實、現實或風格化的視頻。

然後它可以選擇拍攝靜態影像並將其以影片的形式呈現。

最後它可以拍攝影片並產生它的不同版本。

影像栩栩如生

Meta 今年早些時候推出了 Make-A-Scene，它使用文字和自由草圖作為提示來產生逼真的插圖和藝術作品。

同時，人工智慧研究公司 OpenAI 發布了 DALL-E 2，文字轉影像技術又取得了重大飛躍。

使用 DALL-E 2，任何人都可以註冊並向其中輸入提示，創建自己的怪異而精彩的靜態圖像。例如，如果您想要一張在泥濘中穿著靴子的貓的照片，瞧。

或者，外星人盤旋在倫敦的天際線上。

透過 Make-A-Video，Meta 加入了許多其他公司的行列，推動人工智慧生成影片的發展，從技術上和經濟上來說，這都是比影像創建更艱鉅的任務。

這是因為，根據另一種影片創建模型 Phenaki 背後的作者的說法，「可用的高品質數據要少得多，而且計算要求要嚴格得多」。

在一個研究論文他們宣布了他們的程序的結果，該程序能夠將視頻串在一起，比製作視頻的程序長得多，他們寫道，對於圖像生成，數據集包含數十億個圖像-文本對，而對於文本-視訊資料集，數字「小得多」。

Make-A-Video 正試圖透過「無監督學習」來克服文字視訊資料的短缺——本質上是讓人工智慧來學習真實的動作，而無需在其研究的影片上附加文字標籤。

“我們的直覺很簡單，”Meta 研究論文背後的作者寫道。「從配對的文字影像資料中了解世界是什麼樣子以及如何描述它，並從無人監督的影片片段中了解世界如何移動」。

Meta 已表示其目標是有一天向公眾提供這項技術，但尚未透露具體時間。