時間是最神奇的濾鏡。不久前,迪士尼公司發(fā)布了一個專用于影視制作的年齡調(diào)整算法 ,可以讓演員變得更年輕或更年老。這種算法可以讓年老的演員扮演年輕人,反之,也可以讓年輕演員扮演自己老年時。這樣的效果雖然并不足以用于漫威電影,但它也是換臉技術(shù)邁出的新一步。
今天,隨著人工智能(AI)的飛速發(fā)展,AI深度合成技術(shù)門檻正在降低,AI換臉技術(shù)逐漸深入大眾生活,出現(xiàn)在各種各樣的影視作品和生活場景中,當然,這為我們帶來了更好的影音體驗——不過,當相貌可以美顏,年齡可以加減,背景可以綠幕時,如何辨別我們所看到的真和假也是一個難題。
(資料圖片)
“返老還童”大法
在過去的幾年里,在電影制作和廣告中使用數(shù)字老化或減齡人類角色的情況急劇增加,比如在《愛爾蘭人》(The Irishman)中讓羅伯特-德尼羅(Robert De Niro)顯得更年輕,或是在抗擊瘧疾的廣告活動中讓大衛(wèi)-貝克漢姆看起來衰老,都需要用到Re-Age技術(shù)。一般來說,有兩種不同的方法常用于CG數(shù)字re-age。
第一種,就是沿用傳統(tǒng)的三維面部建模pieline,對一個完整的三維re-age面部裝備進行建模、動畫和渲染,以取代場景中的原始肖像。這種方法需要在re-age前制作一個完整的三維面部裝備來輔助操作,由于其復雜性并且所需時間過長,通常只會應用在那些頂級流量的明星演員上或是有特寫的鏡頭。
第二種,則是遵循一個純粹的二維照片的工作流程,對拍攝完成后的視頻中每一幀進行編輯合成,改變演員的年齡。雖然這種方法所提供的整體控制不如完全的三維方法,但與三維方法相比,這種方法極其簡單易用,也不需要提前對演員進行面部掃描并制作面部裝備。因此,二維數(shù)字re-age在業(yè)內(nèi)逐漸受到關注,并被用于一些大片的制作中,如《蟻人》中的邁克爾-道格拉斯和《驚奇隊長》中的塞繆爾-杰克遜的re-age。
另外,盡管re-age的二維工作流程是比較直觀且簡便的,但其仍然需要專業(yè)人員逐幀對表演視頻進行手動編輯。過去的技術(shù)大多依托2D繪畫工作流,通常需要一幀一幀的手工操作,即使是熟練的特效設計師也需要幾天時間才能完成。除了耗時之外,目前市面上針對面部圖像進行自動老化處理的人工智能技術(shù)還未成熟,大多數(shù)都難以達到在業(yè)內(nèi)被實際使用的程度,因為它們通常會出現(xiàn)面部特征丟失、分辨率損害以及后續(xù)視頻幀不穩(wěn)定的結(jié)果。比如,在使演員變老時,每一幀都必須整合預期的耳朵和鼻子的增長,肌肉張力的喪失和面部皮膚的下垂,動態(tài)皺紋的增加,甚至皮膚色素和血流的變化。
當然,不管是三維面部建模,還是遵循二維照片的工作流程,其制作過程都耗時費力。尤其是在手機視頻上看到的小缺陷,比如表情和嘴部動作不協(xié)調(diào),在大銀幕上會被放大數(shù)倍,產(chǎn)生嚴重的違和感,如果非要應用于電影,也需要大量手動的微調(diào)才能確保高質(zhì)量,但價格卻令令影視公司望而生畏:高端的視覺效果通常每分鐘要花上數(shù)百萬美元
而近日,迪士尼在網(wǎng)絡走紅的堪稱“返老還童”的算法卻有可能幫人們解決成本高企的問題。迪士尼的“返老還童算法”被稱為FRAN,與過去的模型相比,FRAN的優(yōu)勢是顯而易見的。
過往模型在改變年齡的過程中往往都聚焦在人臉身上,會忽略掉人像后面的背景,比如DLFS直接就扣掉了背景圖。并且?guī)c幀之間的過渡也不是很流暢。而FRAN可以精確地保留演員的外觀,即使在頭部動作幅度很大時或光線變化的情況下也能如此。除此之外,F(xiàn)RAN的靈活性也更強,可以任意調(diào)節(jié)想要的年齡。FRAN還允許后期人員對生成的視頻進行二次調(diào)整,使整個視頻更加自然。
簡單來說,F(xiàn)RAN能夠使用數(shù)據(jù)信息來預測真人演員面部的哪些區(qū)域會老化,以及如何將皺紋和下巴疊加到既有視頻片段上,或者從既有畫面的人物臉上刪除皺紋。有了FRAN,未來,影視作品中或許就不再需要靠化妝師改變演員年齡視覺效果。不過,F(xiàn)RAN仍有一些局限性,F(xiàn)RAN可能不適合進行重大的年齡改變,例如從很小的年齡開始重新變老,并且當演員變老時,頭皮頭發(fā)的變灰效果不會反映出來,因為這些圍觀數(shù)據(jù)還沒有被收入訓練出FRAN的數(shù)據(jù)庫中。
真真假假的世界?
迪士尼宣稱FRAN是第一個針對視頻人臉的年齡處理技術(shù),具有實用性、全自動、可操作性。在論文中,迪士尼研究工作室解釋FRAN是一個神經(jīng)網(wǎng)絡,它使用一個大型數(shù)據(jù)庫進行圖像處理,該數(shù)據(jù)庫已包含隨機合成的屬于不同年齡段的成組面孔,不需要找到數(shù)千張不同年齡段真實人物的圖像,然后進行更一步的照明和背景合成。
具體來看,根據(jù)迪士尼發(fā)布的相關論文,其中第一個關鍵思路是解決收集訓練數(shù)據(jù)的問題,以便在較長的時間跨度下讓模型學習到如何搭建人臉。但對于真實場景中存在的大量人物來說,這是一項幾乎不可能完成的任務。因此,研究人員使用了 StyleGAN2隨機生成了大量的年齡在18歲至85歲之間的人工合成人臉,有了這樣一個數(shù)據(jù)集,就可以用于模型訓練。
論文中的第二個關鍵思路就是神經(jīng)網(wǎng)絡架構(gòu)的搭建。FRAN采用的是U-Net架構(gòu)。在生成的過程中,F(xiàn)RAN會預測面部的哪些像素點會隨著年齡的增長而改變,比如增加或去除皺紋,然后這些結(jié)果會作為額外的視覺信息通道覆蓋在原來的臉上。在這個過程中,還可以選擇使用預先訓練好的人臉分割網(wǎng)絡:BiSeNetV2,并設置局部的輸入和輸出年齡值,來限制皮膚區(qū)域的再老化,使生成的效果更好。
可以說,FRAN的出現(xiàn)為影視制作減輕了塑造跨年齡角色的負擔。不僅免去傳統(tǒng)換臉技術(shù)的長耗時和高花費,也減少了妝造刻畫年齡的經(jīng)濟成本。接下來,只要演員演技在線,便能自然地在屏幕上演繹人物、
FRAN的意義是不言自明的。一方面,以FRAN為代表的算法可用來升級音視頻剪輯技術(shù),為影視制作中的特效呈現(xiàn)更好的效果,減輕視頻編輯人員的工作壓力;另一方面還可以減少因為演員、拍攝場景的局限,拓展電影的創(chuàng)作空間,衍生出更多改編作品。未來,這一類技術(shù)顯然還將更深入地嵌進我們的生活。
不過,隨著AI換臉日益逼真,技術(shù)門檻越來越低,雖然也帶給影視內(nèi)容應用更高效率、更低制作成本等好處,但隨之而來的造假、欺詐等問題,真假混淆使得人們卻愈發(fā)缺失安全感。
畢竟,當開源軟件涌現(xiàn)時,我們開發(fā)技術(shù)獲取成本大大降低,并且能夠被不具備專業(yè)知識的普通人利用并輕易制作。制造這樣的視頻并不需要很高的技巧,機器學習算法與面部映射軟件相結(jié)合,偽造內(nèi)容來劫持一個人的聲音、面孔和身體等身份信息變得廉價而容易,普通大眾一鍵便可制造想要的視頻。
但是,當相貌可以美顏,年齡可以加減,背景可以綠幕時,我們又如何來辨別所見世界的真假?實際上,自從攝影術(shù)、視頻、射線掃描技術(shù)出現(xiàn)以來,視覺文本的客觀性就在法律、新聞以及其他社會領域被慢慢建立起來,成為真相的存在,或者說,是建構(gòu)真相的最有力證據(jù)。
然而,就像ChatGPT越來越具有類人性一樣,當我們越來越分辨不清我們的對面是機器還是人類時,越來越難以辨別我們所瀏覽的視頻真假時,我們曾經(jīng)對“眼見為實”的相信也將受到極大的挑戰(zhàn)。
事實上,在FRAN這類算法快速發(fā)展時,人們也試圖通過技術(shù)手段規(guī)范這項技術(shù)的使用。比如,2019年,斯坦福大學研究員Tom Van de Weghe聯(lián)合計算機、新聞等行業(yè)的專家,成立了相關的研究小組,以提升公眾對這一現(xiàn)象的認知度,設計深度合成的識別應對方案。然而,技術(shù)發(fā)展速度往往高于破解速度。隨著鑒別器在識別假視頻方面做得越來越好,生成器在創(chuàng)建假視頻方面也做得越來越好。
然而,迄今為止,幾乎所有關于技術(shù)的立法都滯后于技術(shù)的發(fā)展,技術(shù)演進的加快是必然的趨勢,但如何回應技術(shù)演進中誕生的問題,也是身處于日新月異時代的我們需要思考的事情。(本文首發(fā)鈦媒體APP)
關鍵詞: