核心內(nèi)容:
(相關(guān)資料圖)
1、Text-to-Image模型的數(shù)據(jù)規(guī)模需求決定了研究人員嚴(yán)重依賴(lài)基于網(wǎng)絡(luò)抓取并且大部分未經(jīng)整理的巨型數(shù)據(jù)集,由于這些數(shù)據(jù)集往往攜帶社會(huì)和文化偏見(jiàn)。
2、當(dāng)攝影成為逼真繪畫(huà)的競(jìng)爭(zhēng)者,畫(huà)家轉(zhuǎn)向新的表達(dá)方式。1870年代,法國(guó)興起印象派運(yùn)動(dòng)。
3、創(chuàng)造力獨(dú)立于意識(shí),可以被合成、放大和操縱。AI藝術(shù)創(chuàng)所便是鎖定目標(biāo)、按下快門(mén)的過(guò)程——當(dāng)攝影第一次出現(xiàn),這便是攝影師的所有工作。
近日,中國(guó)AI繪畫(huà)平臺(tái)由于技術(shù)尚未成熟帶來(lái)的基于錯(cuò)愕的幽默效果使AIGC作為社交貨幣廣受熱議。從自拍濾鏡到Deepfakes,在過(guò)去十年中,人工智能驅(qū)動(dòng)的現(xiàn)實(shí)扭曲能力與日俱增。
早在2018年10月,巴黎藝術(shù)團(tuán)體Obvious曾以432,000美元的價(jià)格售出一幅名為Edmond Belamy的AI畫(huà)作,這一首件在大型拍賣(mài)行落槌的人工智能藝術(shù)品基于GAN算法,其數(shù)據(jù)集來(lái)自14世紀(jì)至20世紀(jì)期間多達(dá)15,000幅肖像畫(huà)。
今年8月,合成媒體藝術(shù)創(chuàng)作中Jason Allen憑借人工智能生成作品Théatre D"opéra Spatial在擁有150年歷史的藝術(shù)賽事Colorado State Fair中獲獎(jiǎng),人工智能將創(chuàng)意產(chǎn)業(yè)帶入一個(gè)轉(zhuǎn)折點(diǎn)。面對(duì)關(guān)于AI藝術(shù)倫理的激烈辯論,以及高科技剽竊的指責(zé),Allen表示,其作品以“Jason M. Allen via Midjourney”名義提交,“我不會(huì)為此道歉”。
Théatre D"opéra Spatial通過(guò)Midjourney呈現(xiàn)“太空歌劇院”超現(xiàn)實(shí)主義場(chǎng)景(來(lái)源:New York Times)
AI藝術(shù)在文化價(jià)值中的地位無(wú)疑值得讓人深思。縱觀人類(lèi)文明發(fā)展歷程,技術(shù)變革往往能夠顛覆社會(huì)生產(chǎn)方式和消費(fèi)模式,從而攪動(dòng)社會(huì)秩序、甚至世界秩序。事實(shí)上,技術(shù)進(jìn)步也是塑造藝術(shù)形態(tài)的關(guān)鍵因素。
01 機(jī)器是否具有創(chuàng)造力?
AI藝術(shù)的生產(chǎn)機(jī)制包括基于數(shù)學(xué)模式的圖像生成,模擬筆觸和其他繪畫(huà)效果的算法,以及諸如GAN(Generative Adversarial Networks),即生成對(duì)抗網(wǎng)絡(luò)等人工智能或深度學(xué)習(xí)算法。早期AI藝術(shù)系統(tǒng)至少追溯至1972年,彼時(shí),Harold Cohen開(kāi)發(fā)的AARON基于符號(hào)規(guī)則生成技術(shù)圖像,由此成為GOFAI(Good Old-Fashioned Artificial Intelligence,一種符號(hào)AI)編程時(shí)代AI藝術(shù)的著名案例。盡管 AARON僅限于按照Cohen編碼的風(fēng)格,即其個(gè)人繪畫(huà)風(fēng)格進(jìn)行創(chuàng)作,但是它能夠產(chǎn)生無(wú)限量的圖像。
在2014年6月Ian Goodfellow及其同事發(fā)布關(guān)于GAN的文章后,包括Google(TensorFlow)、Meta(Torch)和荷蘭NPO廣播公司 (pix2pix)在內(nèi)的科技公司開(kāi)源其未經(jīng)訓(xùn)練的原始GAN。時(shí)至2017年,這一機(jī)器學(xué)習(xí)框架已被AI藝術(shù)創(chuàng)作者廣泛使用。GAN類(lèi)似于機(jī)器版本的“擬態(tài)”(進(jìn)化生物學(xué))——兩個(gè)神經(jīng)網(wǎng)絡(luò)以零和博弈的形式進(jìn)行關(guān)于視覺(jué)效果真實(shí)性的競(jìng)爭(zhēng)。因此,AI藝術(shù)生成過(guò)程即是“藝術(shù)模仿者”和“藝術(shù)偵探”之間互動(dòng)持續(xù)循環(huán)的過(guò)程,直至藝術(shù)偵探無(wú)法再分清真?zhèn)?/strong>。
深度神經(jīng)網(wǎng)絡(luò)的技術(shù)進(jìn)步使得Text-to-Image Model,即文本到圖像模型,于 2010年代中期誕生。該機(jī)器學(xué)習(xí)模型使得輸入自然語(yǔ)言描述并生成匹配圖像成為可能。在深度學(xué)習(xí)興起之前,構(gòu)建Text-to-Image模型的嘗試僅限于通過(guò)排列現(xiàn)有圖像組件生成的“拼貼畫(huà)”。University of Toronto研究人員于2015年推出的現(xiàn)代首個(gè)Text-to-Image模型alignDRAW所生成的圖像模糊且不逼真。2016年,University of Michigan和Max Planck Institute for Informatics研究人員首次使用GAN推進(jìn)Text-to-Image任務(wù)。
由Elon Musk、Sam Altman等人于2015年12月創(chuàng)立的人工智能研究實(shí)驗(yàn)室OpenAI旨在促進(jìn)發(fā)展“人類(lèi)友好人工智能”。2021年1月,OpenAI基于其開(kāi)創(chuàng)性的GPT語(yǔ)言模型推出的DALL-E是首個(gè)引起公眾廣泛關(guān)注的文本Text-to-Image模型之一,其命名是皮克斯動(dòng)畫(huà)角色Wall-E與超現(xiàn)實(shí)主義藝術(shù)家Salvador Dalí 的極客組合。該組織于2022年4月推出的DALL-E 2能夠生成更逼真、更準(zhǔn)確的圖像,分辨率較上一代提升了4倍。
今年以來(lái),從Google Brain的于5月發(fā)布的Imagen和 StabilityAI 于8月發(fā)布的Stable Diffusion,Text-to-Image模型生產(chǎn)圖像使得機(jī)器與人類(lèi)在藝術(shù)生產(chǎn)方面的鴻溝迅速收縮。
Imagen公開(kāi)Text-to-Image詼諧示例(來(lái)源:Imagen)
繼Text-to-Image模型之后,諸如Runway、Make-A-Video、Imagen Video、Midjourney和Phenaki等由語(yǔ)言模型支撐的Text-to-Video(文本到視頻)平臺(tái)應(yīng)運(yùn)而生。
人工智能具有創(chuàng)造力的假設(shè)往往受到藝術(shù)家嘲諷,但是這取決于創(chuàng)造力的定義。AI能夠以空前、有效的方式創(chuàng)造事物,只是這種創(chuàng)造并非“意圖”驅(qū)動(dòng)——解釋和篩選輸出的是人。AI藝術(shù)從業(yè)者M(jìn)ario Klingemann評(píng)論道,“機(jī)器無(wú)意創(chuàng)造任何東西……你生了火,火產(chǎn)生了形狀,它并沒(méi)有創(chuàng)造力,是你看見(jiàn)了圖案——AI便是從不重復(fù)、一次又一次給人帶來(lái)新奇和驚喜的火焰”。
Text-to-Image的社會(huì)和文化偏見(jiàn)
Synthetic Media,即合成媒體,代指任何類(lèi)型的AI生成圖片、視頻、虛擬對(duì)象(e.g. 虛擬人)、聲音或文字。該類(lèi)別包括且不限于Deepfake內(nèi)容、基于文本的AI藝術(shù)、VR和AR環(huán)境中的虛擬內(nèi)容。Nina Schick曾于2020年在一書(shū)中表達(dá)了深刻的技術(shù)恐懼,由于Deepfakes讓人類(lèi)無(wú)法分辨什么是真實(shí)的,什么不是,該技術(shù)被認(rèn)為將對(duì)西方民主制度構(gòu)成巨大威脅——選民操縱可能被推至前所未有的高度,而這場(chǎng)“信息災(zāi)難”的危險(xiǎn)的后果關(guān)乎公眾信任、甚至國(guó)家安全。
盡管Text-to-Image模型很難帶來(lái)以上災(zāi)難,但是該技術(shù)仍然不乏令人不安的應(yīng)用情景。想象一個(gè)可以生成幾乎任何圖像的系統(tǒng),技術(shù)進(jìn)步或?yàn)橹圃旒傩侣?、惡作劇和騷擾提供更為高效的工具。此外,系統(tǒng)本身攜帶社會(huì)偏見(jiàn),其輸出通常涉及種族主義和性別歧視。Google研究人員在報(bào)告中指出,Text-to-Image模型的數(shù)據(jù)規(guī)模需求決定了研究人員嚴(yán)重依賴(lài)基于網(wǎng)絡(luò)抓取并且大部分未經(jīng)整理的巨型數(shù)據(jù)集,而這些數(shù)據(jù)集傾向于反映社會(huì)刻板印象、壓迫性觀點(diǎn),以及針對(duì)邊緣群體的貶損。
此前,研究人員在評(píng)估DALL-E時(shí)已經(jīng)遭遇相似問(wèn)題,DALL-E生成的空乘人員圖像幾乎均為女性,而CEO圖像卻是千篇一律的白人男性。正是出于這個(gè)原因,OpenAI遲遲不愿公開(kāi)發(fā)布DALL-E,雖然公司允許部分測(cè)試人員進(jìn)行訪問(wèn)。據(jù)悉,該系統(tǒng)已經(jīng)著手過(guò)濾某些文本輸入,以在某種程度上限制其被用于生成種族主義、暴力或情色圖像。與之類(lèi)似的是,Google認(rèn)為Imagen“目前尚不適合公眾使用”,同時(shí)表示公司計(jì)劃開(kāi)發(fā)一種新方法來(lái)衡量并測(cè)試“社會(huì)和文化偏見(jiàn)”。由于龐大數(shù)據(jù)庫(kù)的偏見(jiàn)源自藝術(shù)史——世界歷史的視覺(jué)呈現(xiàn),University of Southampton教授Sunil Manghani將其稱(chēng)為“歷史偏見(jiàn)”。
The Verge于今年5月總結(jié)道,“老生常談的格言仍然適用于AI世界:輸入垃圾,收獲垃圾”。
技術(shù)進(jìn)步推動(dòng)藝術(shù)創(chuàng)作民主化
對(duì)藝術(shù)創(chuàng)作新技術(shù)的爭(zhēng)論并非首次。AI藝術(shù)能否被視為藝術(shù)這一問(wèn)題與攝影術(shù)的發(fā)明曾經(jīng)引發(fā)的擔(dān)憂極為類(lèi)似,二者均降低了藝術(shù)創(chuàng)作的技術(shù)門(mén)檻。19世紀(jì)法國(guó)詩(shī)人Charles Pierre Baudelaire曾稱(chēng)攝影為“藝術(shù)最致命的敵人”。
然而,將技術(shù)進(jìn)步普遍解讀為“對(duì)人類(lèi)藝術(shù)的貶低”在現(xiàn)實(shí)中無(wú)益,這不能阻止技術(shù)普及帶來(lái)的創(chuàng)作民主化——只需按下快門(mén),人人都能捕捉到任意場(chǎng)景的逼真描繪。當(dāng)攝影成為逼真繪畫(huà)的競(jìng)爭(zhēng)者,肖像、風(fēng)景等場(chǎng)景中追求逼真效果的需求驟然萎縮,這一擾動(dòng)使得畫(huà)家轉(zhuǎn)向新的表達(dá)方式。自1870年代起,法國(guó)興起印象派運(yùn)動(dòng),這一繪畫(huà)風(fēng)格在接下來(lái)的五十年中席卷整個(gè)歐洲。
1873年12月,Claude Monet、Pierre Renoir、Camille Pissarro等藝術(shù)家創(chuàng)立了畫(huà)家、雕塑和雕刻家匿名協(xié)會(huì),以獨(dú)立展出其此前被沙龍?jiān)u審團(tuán)拒絕的作品。評(píng)論家Louis Leroy在報(bào)紙Le Charivari以“印象派展覽”嘲諷這一風(fēng)格,“印象,我很確定...多么自由,多么偷工減料!半成品墻紙都比它更完整”,印象派一詞便源于此。攝影技術(shù)推動(dòng)印象派掀起革命,而隨之而來(lái)的后印象派讓位于20世紀(jì)藝術(shù)界技術(shù)、主題和形式的進(jìn)一步“解放”。
Water Lilies by Claude Monet 1906(來(lái)源:Artsy)
The Sower by Vincent Van Gogh 1888(來(lái)源:Artsy)
如今,AI藝術(shù)被諸多評(píng)論家視作人類(lèi)藝術(shù)家終結(jié)的標(biāo)志。視覺(jué)素材平臺(tái)Getty Images已經(jīng)禁止了 AI生成圖像,一些DeviantArt平臺(tái)藝術(shù)家正在要求類(lèi)似禁令。與之相比,較為善意的聲音呼吁為AI藝術(shù)貼上標(biāo)簽,以便將其與人類(lèi)藝術(shù)區(qū)分開(kāi)來(lái)。不少藝術(shù)家可能擔(dān)心企業(yè)通過(guò)其作品獲利而自己卻得不到任何補(bǔ)償,因而努力避免其作品被用來(lái)訓(xùn)練AI,然而這種努力顯然是徒勞——想象一下,即使從數(shù)據(jù)集中刪除所有Van Gogh作品,該藝術(shù)家的風(fēng)格仍將深植于模仿者或深受其影響的浩瀚視覺(jué)海洋中。
Wired認(rèn)為,正如一個(gè)世紀(jì)前的機(jī)械攝影,AI藝術(shù)不會(huì)扼殺藝術(shù)本身,而是開(kāi)辟了更多可能性,“創(chuàng)造力不是某種超自然的力量。它可以被合成、放大和操縱。事實(shí)證明,我們不需要獲得智能來(lái)孵化創(chuàng)造力。創(chuàng)造力獨(dú)立于意識(shí)...這種新藝術(shù)介于繪畫(huà)和攝影之間,存在于一個(gè)和繪畫(huà)的可能性一樣大的空間。你像攝影師一樣在這一空間中移動(dòng),探索,發(fā)現(xiàn)” 。
因此,AI藝術(shù)創(chuàng)所便是鎖定目標(biāo)、按下快門(mén)的過(guò)程——當(dāng)攝影第一次出現(xiàn),這便是攝影師的所有工作。
本文作者認(rèn)為,創(chuàng)作民主或許伴隨著更為普遍的審美平庸,但是當(dāng)創(chuàng)造力已經(jīng)成為一種商品,一個(gè)或許平庸但是全面的視覺(jué)搜索引擎顯然能夠大幅降低成本,無(wú)論對(duì)于企業(yè)或個(gè)人。相較于通過(guò)視覺(jué)素材平臺(tái)搜索人類(lèi)藝術(shù)創(chuàng)作者制作的昂貴圖像,AI視覺(jué)素材的獲取效率更高、價(jià)格更為低廉,同時(shí)貼合個(gè)性化需求。
正如Wired所言,歷史上第一次,人類(lèi)得以按需、實(shí)時(shí)、大規(guī)模、廉價(jià)地開(kāi)展日常創(chuàng)意活動(dòng),“我們可能有點(diǎn)像中世紀(jì)的農(nóng)民,當(dāng)被問(wèn)及拿250馬力做什么,他們毫無(wú)想法。如今,我們的創(chuàng)造力引擎能夠用以瞄準(zhǔn)任何陳舊角落。這是一份非凡的禮物”。
參考資料:
Vincent, J. (2022) All these images were generated by Google"s latest text-to-image ai, The Verge. The Verge. Available at: https://www.theverge.com/2022/5/24/23139297/google-imagen-text-to-image-ai-system-examples-paper (Accessed: December 6, 2022).Bogost I. (2019) The AI-Art Gold Rush is Here. The Atlantic. Available at: https://www.theatlantic.com/technology/archive/2019/03/ai-created-art-invades-chelsea-gallery-scene/584134/ (Accessed: December 6, 2022).Kelly K. (2022) Picture Limitless Creativity at Your Fingertips. Wired. Available at: https://www.wired.com/story/picture-limitless-creativity-ai-image-generators/ (Accessed: December 6, 2022).
關(guān)鍵詞: image