縱觀人類歷史,技術進步讓一些工人被淘汰,同時賦予了其他工人權力。運輸和製造業等行業的工人已經受到自動化和人工智慧進步的強烈影響。
如今,處於危險之中的是創意產業。視覺藝術家、設計師、插畫家和許多其他創意人士帶著敬畏和憂慮的心情見證了人工智慧文字到圖像生成器的到來。
這項新技術引發了圍繞人工智慧在視覺藝術中的作用以及風格挪用等問題的爭論。它的速度和效率引發了一些藝術家對冗餘的擔憂,而另一些藝術家則將其視為一種令人興奮的新工具。
什麼是人工智慧文字轉圖像生成器?
AI 文字轉影像產生器是一種根據使用者輸入的文字(稱為提示)來建立影像的軟體。這些人工智慧工具是在龐大的文字和圖像對資料集上進行訓練的。
DALL-E 2 和 Midjourney 尚未公開其資料集。然而,流行的開源工具 Stable Diffusion 對於人工智慧的訓練內容更加透明。
「我們沒有透過網路自己找到這些圖像。這是其他人已經做過的事情,」慕尼黑路德維希馬克西米利安大學電腦視覺和學習小組負責人 Björn Ommer 教授說。
奧默致力於穩定擴散的研究。
「現在有從網路上抓取的大數據集,可供公開使用。我們使用的這些數據,主要是 LAION 數據集,這些數據集包含數十億張我們可以訓練的圖像,」他告訴 Euronews Next。
LAION 是一個在網路上收集圖像文字對的非營利組織。然後,它根據語言、解析度、帶有浮水印的可能性和預測的美學分數等因素將它們組織成資料集,例如美學視覺分析 (AVA) 資料集,其中包含評分從 1 到 10 的照片。
LAION 從另一個名為 Common Crawl 的非營利組織取得這些圖像文字對。 Common Crawl 提供對其 Web 爬網資料儲存庫的開放訪問,以實現對 Web 資訊的存取民主化。它透過每月抓取數十億個網頁並將它們作為公開可用的資料集發布來實現這一點。
訓練人工智慧
一旦收集並組織了這些圖像-文字對的資料集,人工智慧模型就會對其進行訓練。訓練過程教導人工智慧在圖像中的視覺結構、構圖和任何可辨識的視覺資料之間建立聯繫,以及它如何與其隨附文字相關。
「因此,當花費大量時間訓練這些模型後,當訓練最終完成時,你就擁有了一個強大的模型,可以在文字和圖像之間進行轉換,」Ommer 說。
文字轉圖像生成器開發的下一步稱為擴散。
在此過程中,高斯或「隨機」視覺雜訊逐漸添加到影像中,而人工智慧則在逐漸變得更加「雜訊」的影像的每次迭代上進行訓練。
然後,該過程被逆轉,人工智慧被教導從隨機像素開始建立視覺上與原始訓練圖像相似的圖像。
「添加一點點噪音一千次的最終產品看起來就像你從電視機上拔下天線電纜一樣,那裡只有靜電,只有噪音 - 不再有信號留下,」奧默解釋道。
人工智慧模型以這種方式在數十億張圖像上進行訓練,從圖像到噪聲,然後每次都反轉該過程。
經過這個階段的訓練過程後,人工智慧就可以開始從雜訊中創造出以前從未存在過的影像。
實際上,這意味著用戶現在可以訪問文字到圖像生成器,在簡單的文字方塊中輸入文字命令,人工智慧將根據文字輸入生成全新的圖像。
每個文字到圖像的人工智慧都有其用戶透過反覆試驗發現的關鍵字。 「數位藝術」、「4k」或「電影」等關鍵字可能會對結果產生巨大的影響,使用者已經在網路上分享了產生特定風格藝術的提示和技巧。典型的提示可能是「戴著牛仔帽的蘋果的數位插圖,4k,詳細,artstation 中的趨勢」。
藝術風格的挪用
人工智慧文字到圖像產生器的倫理問題一直是許多爭論的話題。一個令人關注的關鍵問題是,這些人工智慧可以接受真實的、活著的、正在工作的藝術家的作品訓練。這可能允許任何使用這些工具的人以這些藝術家的標誌性風格創作新作品。
「我認為我們必須想出一種方法,讓藝術家在他們的名字或圖像出現在數據集中時獲得補償,或者讓他們完全選擇退出,如果他們不想有任何東西視頻拼貼藝術家 Erik Winkowski 告訴 Euronews Next。
關於為了經濟利益而進行風格挪用的問題,他補充道,「如果一個品牌活動明顯挪用了一個人的藝術作品,無論它是用人工智慧還是其他方式製作的,那都不是一件好事。我希望他們能夠成為公眾,站出來反對這一點」。
11月,線上藝術社群Deviant Art宣布將在其網站上添加自己的AI文字轉圖像生成工具DreamUp。
然後,網站上所有 Deviant Arts 用戶的藝術作品都將自動用於訓練人工智慧。
然而,在宣布這一消息後的 24 小時內,面對社區的強烈反對,Deviant Art 改變了政策。相反,用戶必須主動選擇加入訓練人工智慧。
Shutterstock 是一個股票圖像市場,現在計劃整合 DALL-E 的文字到圖像生成器,並向那些用於訓練人工智慧的創作者提供補償。
不公平競爭還是強大的新工具?
在 2022 年科羅拉多州博覽會上,Jason Allen 使用 Midjourney 創作的人工智慧生成藝術作品「Théâtre D'opéra Spatial」贏得了「新興數位藝術家」類別的獎項。
該獎項引發了圍繞藝術未來的許多爭議和爭論。在宣傳中,艾倫成立了一家新公司 AI Infinitum,提供「豪華人工智慧列印」。
一些藝術家擔心人工智慧文字到圖像生成器創建藝術品的速度和準確性。像穩定擴散這樣的工具可以在幾秒鐘內創造出藝術家需要數小時或數天才能製作的多件藝術品。
這引起了一些創意人員的擔憂,他們擔心自己的技能可能會因這項技術而過時。
「我看到我的研究目標從來都不是想要取代人類、人類智力等,」奧默告訴歐洲新聞台。
「我認為穩定擴散很像我們在那裡看到的許多其他工具,只是一種使藝術家、人類、用戶能夠利用這些工具做更多事情或做他們已經做過的事情的技術。做得更好,但不能取代最好的人」。
AI藝術的下一階段
人工智慧文字到圖像生成器正在不斷改進,一些研究人員和科技公司正在開發生成視覺藝術的下一階段。
Meta 發布了目前正在開發的文本到視訊人工智慧的範例,它可以根據用戶的文字輸入生成影片。
同時,Google推出了 DreamFusion,這是一種文字轉 3D 人工智慧,它建立在文字轉圖像生成器技術的基礎上,無需包含 3D 資產的資料集即可生成 3D 模型。
Winkowski 等一些視覺藝術家已經開始將生成式人工智慧工具納入他們的工作流程中,並推動該技術創造動畫藝術。
在他最近題為“Leaving home”的短片中,Winkowski 繪製了某些幀,並允許穩定擴散在其間生成幀。
「這幾乎就像擁有作為藝術家的超能力,真的,」他說。
“這真的很令人興奮。我認為我們也許能夠承擔比我們想像的更雄心勃勃的項目」。
有關此故事的更多信息,請觀看上面媒體播放器中的視頻。