詩意的具現化——關於 Midjourney 的二三拙見

劉庭均
2022年6月7日
讀畢需時 6 分鐘

文/劉庭均

前言

這篇文角度比較個人，筆者近兩三年埋首在媒體藝術於電腦文學和自然語言處理（NLP）之中的應用徘徊，見證 GPT-2 的開源直至玩了 GPT-3 的封測。剛好目前 Midjourney（以下稱之為MJ）在台灣大紅，從藝術的角度切入自然語言處理，便想寫寫一些想法拋磚引玉。目前的 MJ 是一個基於 Discord 平台的聊天機器人，用戶在輸入一串文字之後，透過雲端伺服器的運算，反饋四張基於文字生成的圖像。

《從文字到圖像，詩意的具象化》

從CLIP到Dall-E，Disco diffusion 到 MJ，直到近十年機器學習模型大紅大紫之前長短期記憶（LSTM）還是最普遍的文字生成方法。2019年OpenAI公司的 GPT-2（Generative Pre-trained Transformer 2）開放了原始碼，一個基於Transformer框架的大型語言模型（Large Language Models）（註一）摧毀既往對電腦文字生成的想像，大幅降低自然語言處理應用的門檻的同時，也引發一場LMM的軍備競賽。不同以往各種深度學習模型，GPT並沒有任何預設的目的性。Transformer框架最基本的概念是作出預測，透過輸入一段文字，預測接下來出現文字的各種可能性。如同魔法一般的Zero-shot prompting（註二）成為可能：輸入一段文字作為指令之後，不輸入任何範例，GPT便會自動產出期望的結果。

隨著 GPT-2（以及接續 Dall-E）的開源，各式各樣的應用也如同雨後春筍般冒出；自動書寫軟體OthersideAI ，疫情期間的聊天機器人 Replika，無限生成的地下城遊戲 AI Dungeon。而成為文字與圖像橋樑的，便是同樣由OpenAI 發表的 CLIP（Contrastive Language–Image Pre-training）。CLIP 是透過自然語言處理的方式作為訓練基礎，將語言中的文法帶入了圖像辨識（Image Classification）領域。圖像辨識不再僅限於片面解讀各種圖像中的名詞，而是動詞、動態、語氣（儘管仍然不盡完善）皆成為文字輸出的可能性之一，電腦也因此以自己的方式「理解」了語言。儘管這樣的技術並非先例，但 GPT 龐大的語言資料庫，量變產生了質變。當圖像辨識領域能夠輸出完整的語句，反之亦然，文字是否也能生成圖像？這極為關鍵的一步，翻轉電腦圖像生成的方向，開啟了圖像辨識乃至於生成另一種可能性。OpenAI 也在其後發表了 Dall-E ，圖像的生產門檻進一步降低。簡單的語句「一張寫著咖喱飯的餐廳招牌圖」，便會隨之生成出對應的圖像。軍備競賽也由此開始，Disco diffusion、Google 的 Imagen、Meta 的 OPT，接連發表，皆是基於 GPT-2與 GPT-3 的功勞。當 Dall-E 2 仍然在數百人內的封測時，Midjourney 夾帶著絢麗的圖像橫空出世。

當線性的文字述敘成為了二維的圖像，字裡行間想像的間隙，在圖像中被賦予了表現空間。Dall-E基於兩個部分，一個離散的 Encoder學習了如何在有限空間中表現圖像（註三），一個 Transformer 將訓練資料中的文字與圖像建立了其間關聯性的參數。圖像與文字在模型中都是以數字作為形式，由此建立兩者之間的關聯性成為了可能。圖像的生產過程，成為了文字詩意的具象詮釋。而 MJ接此接續發展，透過大量網路數位藝術相關的創作為訓練基礎，演算出如同遊戲引擎般的圖像。

《以熱量取代勞動，圖像無上限的複製、調變與再生》

幾天前在備課的時候，用了台裝了 2080 顯示卡的電腦運算一張 DALL·E 的圖，隨著電腦風扇轟隆隆的聲響，十分鐘後六張不甚滿意的模糊圖像生產了出來。低解析度、畫面上還充斥著可能是繼承自訓練資料的浮水印；完全無法對比 MJ 精緻複雜的圖像。 Discord 群組上每 30秒生成一張圖，數百用戶每分每秒不斷生產不同的視覺。不禁讓人得以思考其中的熱能生產。熱能是虛擬世界與現實世界最主要的聯繫，計算機一切的運算都需要電力，而電力的使用無疑排放大量的熱能。數百張複雜的圖像在群組中不斷被生產、放大、調變，想像這需要多大的計算能量支持，期間又會產生多少的電力需求？

過往精緻的圖像成為了這每秒數百張生成圖片中的滄海一粟，量變產生質變，圖像的解讀因為視覺的濫觴而扁平化。藝術的工作並非換化無形，而是如同工業革命後人類勞動轉化為熱能一般，藝術家的勞動也被簡化為文字的輸入、熱能的排放、直至生產。參數中溫度的調變，擊碎了圖像唯一的靈光，圖像不再僅以圖像本身存在，而是附註了一段預設的旁白。這段旁白，被以電腦的方式，解釋了圖像的生產過程。CLIP 引發的技術革命，橋接了電腦圖像與文字，而文字的改變，便會導致圖像的改變。鍵盤取代了畫筆，演算法取代了色彩、風格、構圖，同樣的文字，卻能生產出無限種不同的變化。

《藝術家最後的防線？》

五年前對抗式生成網路衝擊了藝術，隨著2018年第一張 GAN 生成的圖像被印刷直至售出，機器無法取代的人類思想防線被動搖了。五年過後，藝術家仍然存在，基於人類撰寫程式的演算藝術 NFT 大紅大紫，藝術家由此安心了嗎？MJ 生成的大量精緻圖像，可以看出除了傳統繪畫作為訓練資料之外，也包含許多 Pinterest 中 #DigitalArt 的作品。我們可以議論 Midjourney 只具備完成特定的藝術表現形式。如此吸睛的效果看似破壞了藝術家的工作，卻在某種程度解放了圖像生成的勞動，乃至於延伸了勞動的方法。設計師得以將生成圖像作為概念視覺進一步延伸，遊戲設計師可以快速生產概念圖。GPT-2 出世近三年，並未消滅了作家的存在，反而成為了寫作的助力。這些被下放的技術，我們可以透過拉圖（Bruno Latour）的行動者網路理論（Actor-Network Theory，簡稱ANT）來想像，當語言－圖像生成模型成為了創作者新的助力，創作者、文字、人工智慧模型建構了圖像生產的新的行動者網絡。60 年代藝術史中的觀念藝術（Conceptual art），及以文字作為觀念的載體，生產藝術的「圖像」。觀眾在閱讀觀念藝術的圖像與文件的同時，在腦中的邏輯思考便是其藝術概念的表現。如同在觀看 MJ 生產的圖像時，會不禁思考最初提示（Prompting）時輸入的文字究竟為何？什麼樣的變化又能生產出什麼樣的圖像？

目前大量的生成圖像都有某種程度上的相似性，但當這些圖像重新透過 #midjourney 回到網路上，屆時這些訓練資料又成生成什麼樣的風景？每種不同的模型都有其特殊的視覺風格，圖像與文字之間的關聯性因為 Disco Diffusion、Dalle-E 2 和 MJ 被進一步拉近，文字的創作同時也是圖像的創作，而藝術家的工作，成為發掘與探索兩者之間的關聯性。大量精細的圖像，造成短期視覺上的飽和，當每分每秒都有傳統認知上的複雜圖像被生產，藝術的價值才會在過程中被洗鍊，究竟什麼才是藝術的觀念？圖像能否作為思想的載體？這些提問也只有在機器取代藝術的勞動後，才難能可貴。

註一：

預測下一個句子或文字的概念，始於 1906 年俄羅斯數學家安德烈．馬可夫（Andrey Markov）發明的馬可夫練（Markov Chain）。透過樣本之間的轉換的機率，預測下一個狀態發生的可能機率。這一技術之變形迄今仍被大量應用於文學分析、氣象、金融等等領域。

註二：

Zero-Shot Prompting 為不輸入任何範本資料進行預測提示，舉例來說One-Shot可能的輸入為「列舉所有三明治的餡料：1.）麵包」。而 Zero-Shot 則以字面理解提示，直接進行輸入「列舉所有三明治的餡料」。

註三：

這部分的技術也包含所謂 Diffusion，旨在讓電腦理解的視覺元素，重新排列組合，一方面符合語意，另一方面符合人類對視覺的理解。

外部連結：

1. MidJourney 入口網站：https://www.midjourney.com/

2. Disco diffusion 範例：https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb

3. Dall-E 範例：https://github.com/openai/DALL-E/blob/master/notebooks/usage.ipynb

4. GPT-3 範例：https://beta.openai.com/overview

5. Text2Image範例：https://replicate.com/pixray/text2image