• 劉庭均

詩意的具現化——關於 Midjourney 的二三拙見

文/劉庭均



前言


這篇文角度比較個人,筆者近兩三年埋首在媒體藝術於電腦文學和自然語言處理(NLP)之中的應用徘徊,見證 GPT-2 的開源直至玩了 GPT-3 的封測。剛好目前 Midjourney(以下稱之為MJ)在台灣大紅,從藝術的角度切入自然語言處理,便想寫寫一些想法拋磚引玉。目前的 MJ 是一個基於 Discord 平台的聊天機器人,用戶在輸入一串文字之後,透過雲端伺服器的運算,反饋四張基於文字生成的圖像。


《從文字到圖像,詩意的具象化》


從CLIP到Dall-E,Disco diffusion 到 MJ,直到近十年機器學習模型大紅大紫之前長短期記憶(LSTM)還是最普遍的文字生成方法。2019年OpenAI公司的 GPT-2(Generative Pre-trained Transformer 2)開放了原始碼,一個基於Transformer框架的大型語言模型(Large Language Models)(註一)摧毀既往對電腦文字生成的想像,大幅降低自然語言處理應用的門檻的同時,也引發一場LMM的軍備競賽。不同以往各種深度學習模型,GPT並沒有任何預設的目的性。Transformer框架最基本的概念是作出預測,透過輸入一段文字,預測接下來出現文字的各種可能性。如同魔法一般的Zero-shot prompting(註二)成為可能:輸入一段文字作為指令之後,不輸入任何範例,GPT便會自動產出期望的結果。


隨著 GPT-2(以及接續 Dall-E)的開源,各式各樣的應用也如同雨後春筍般冒出;自動書寫軟體OthersideAI ,疫情期間的聊天機器人 Replika,無限生成的地下城遊戲 AI Dungeon。而成為文字與圖像橋樑的,便是同樣由OpenAI 發表的 CLIP(Contrastive Language–Image Pre-training)。CLIP 是透過自然語言處理的方式作為訓練基礎,將語言中的文法帶入了圖像辨識(Image Classification)領域。圖像辨識不再僅限於片面解讀各種圖像中的名詞,而是動詞、動態、語氣(儘管仍然不盡完善)皆成為文字輸出的可能性之一,電腦也因此以自己的方式「理解」了語言。儘管這樣的技術並非先例,但 GPT 龐大的語言資料庫,量變產生了質變。當圖像辨識領域能夠輸出完整的語句,反之亦然,文字是否也能生成圖像?這極為關鍵的一步,翻轉電腦圖像生成的方向,開啟了圖像辨識乃至於生成另一種可能性。OpenAI 也在其後發表了 Dall-E ,圖像的生產門檻進一步降低。簡單的語句「一張寫著咖喱飯的餐廳招牌圖」,便會隨之生成出對應的圖像。軍備競賽也由此開始,Disco diffusion、Google 的 Imagen、Meta 的 OPT,接連發表,皆是基於 GPT-2與 GPT-3 的功勞。當 Dall-E 2 仍然在數百人內的封測時,Midjourney 夾帶著絢麗的圖像橫空出世。


當線性的文字述敘成為了二維的圖像,字裡行間想像的間隙,在圖像中被賦予了表現空間。Dall-E基於兩個部分,一個離散的 Encoder學習了如何在有限空間中表現圖像(註三),一個 Transformer 將訓練資料中的文字與圖像建立了其間關聯性的參數。圖像與文字在模型中都是以數字作為形式,由此建立兩者之間的關聯性成為了可能。圖像的生產過程,成為了文字詩意的具象詮釋。而 MJ接此接續發展,透過大量網路數位藝術相關的創作為訓練基礎,演算出如同遊戲引擎般的圖像。


《以熱量取代勞動,圖像無上限的複製、調變與再生》


幾天前在備課的時候,用了台裝了 2080 顯示卡的電腦運算一張 DALL·E 的圖,隨著電腦風扇轟隆隆的聲響,十分鐘後六張不甚滿意的模糊圖像生產了出來。低解析度、畫面上還充斥著可能是繼承自訓練資料的浮水印;完全無法對比 MJ 精緻複雜的圖像。 Discord 群組上每 30秒生成一張圖,數百用戶每分每秒不斷生產不同的視覺。不禁讓人得以思考其中的熱能生產。熱能是虛擬世界與現實世界最主要的聯繫,計算機一切的運算都需要電力,而電力的使用無疑排放大量的熱能。數百張複雜的圖像在群組中不斷被生產、放大、調變,想像這需要多大的計算能量支持,期間又會產生多少的電力需求?


過往精緻的圖像成為了這每秒數百張生成圖片中的滄海一粟,量變產生質變,圖像的解讀因為視覺的濫觴而扁平化。藝術的工作並非換化無形,而是如同工業革命後人類勞動轉化為熱能一般,藝術家的勞動也被簡化為文字的輸入、熱能的排放、直至生產。參數中溫度的調變,擊碎了圖像唯一的靈光,圖像不再僅以圖像本身存在,而是附註了一段預設的旁白。這段旁白,被以電腦的方式,解釋了圖像的生產過程。CLIP 引發的技術革命,橋接了電腦圖像與文字,而文字的改變,便會導致圖像的改變。鍵盤取代了畫筆,演算法取代了色彩、風格、構圖,同樣的文字,卻能生產出無限種不同的變化。

Dall-E 演算出海邊影像

《藝術家最後的防線?》


五年前對抗式生成網路衝擊了藝術,隨著2018年第一張 GAN 生成的圖像被印刷直至售出,機器無法取代的人類思想防線被動搖了。五年過後,藝術家仍然存在,基於人類撰寫程式的演算藝術 NFT 大紅大紫,藝術家由此安心了嗎?MJ 生成的大量精緻圖像,可以看出除了傳統繪畫作為訓練資料之外,也包含許多 Pinterest 中 #DigitalArt 的作品。我們可以議論 Midjourney 只具備完成特定的藝術表現形式。如此吸睛的效果看似破壞了藝術家的工作,卻在某種程度解放了圖像生成的勞動,乃至於延伸了勞動的方法。設計師得以將生成圖像作為概念視覺進一步延伸,遊戲設計師可以快速生產概念圖。GPT-2 出世近三年,並未消滅了作家的存在,反而成為了寫作的助力。這些被下放的技術,我們可以透過拉圖(Bruno Latour)的行動者網路理論(Actor-Network Theory,簡稱ANT)來想像,當語言-圖像生成模型成為了創作者新的助力,創作者、文字、人工智慧模型建構了圖像生產的新的行動者網絡。60 年代藝術史中的觀念藝術(Conceptual art),及以文字作為觀念的載體,生產藝術的「圖像」。觀眾在閱讀觀念藝術的圖像與文件的同時,在腦中的邏輯思考便是其藝術概念的表現。如同在觀看 MJ 生產的圖像時,會不禁思考最初提示(Prompting) 時輸入的文字究竟為何?什麼樣的變化又能生產出什麼樣的圖像?


目前大量的生成圖像都有某種程度上的相似性,但當這些圖像重新透過 #midjourney 回到網路上,屆時這些訓練資料又成生成什麼樣的風景?每種不同的模型都有其特殊的視覺風格,圖像與文字之間的關聯性因為 Disco Diffusion、Dalle-E 2 和 MJ 被進一步拉近,文字的創作同時也是圖像的創作,而藝術家的工作,成為發掘與探索兩者之間的關聯性。大量精細的圖像,造成短期視覺上的飽和,當每分每秒都有傳統認知上的複雜圖像被生產,藝術的價值才會在過程中被洗鍊,究竟什麼才是藝術的觀念?圖像能否作為思想的載體?這些提問也只有在機器取代藝術的勞動後,才難能可貴。


註一:

預測下一個句子或文字的概念,始於 1906 年俄羅斯數學家安德烈.馬可夫(Andrey Markov)發明的馬可夫練(Markov Chain)。透過樣本之間的轉換的機率,預測下一個狀態發生的可能機率。這一技術之變形迄今仍被大量應用於文學分析、氣象、金融等等領域。


註二:

Zero-Shot Prompting 為不輸入任何範本資料進行預測提示,舉例來說One-Shot可能的輸入為「列舉所有三明治的餡料:1.)麵包」。而 Zero-Shot 則以字面理解提示,直接進行輸入「列舉所有三明治的餡料」。


註三:

這部分的技術也包含所謂 Diffusion,旨在讓電腦理解的視覺元素,重新排列組合,一方面符合語意,另一方面符合人類對視覺的理解。


 

外部連結:


1. MidJourney 入口網站:https://www.midjourney.com/

2. Disco diffusion 範例:https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb

3. Dall-E 範例:https://github.com/openai/DALL-E/blob/master/notebooks/usage.ipynb

4. GPT-3 範例:https://beta.openai.com/overview

5. Text2Image範例:https://replicate.com/pixray/text2image

 

筆者 ∥ 劉庭均


就讀於德國科隆媒體藝術學院。從事新媒體藝術、網路藝術相關創作。研究議題包含網路文化、電腦文學、與人工智慧等。探索後網路時代下虛擬與真實之間的模糊關係。


https://www.liutingchun.com/