人工智能(AI)技術的進步,讓一切的合成變得簡單和輕易。近年來,利用深度學習、虛擬現實等生成合成類算法制作圖像、音頻、視頻、虛擬場景等信息的深度合成技術,已在多個領域大量應用,伴隨著不斷涌現的使用需求,深度合成內容數量和關注度呈現快速增長態(tài)勢。
在深度合成快速發(fā)展的同時,挑戰(zhàn)也隨之而來。深度合成技術的日益精湛,導致合成的音頻、視頻等偽造內容越來越能以假亂真,并由此帶來一系列關于安全的風險。在這樣的背景下,除了立法進行監(jiān)管,以技術規(guī)制技術成為深度合成的必然。問題是,技術該怎么規(guī)制技術?深度合成和檢測的“貓鼠游戲”的下一步又會是什么?
(資料圖片)
深度合成和新的風險
深度合成技術是人工智能發(fā)展到一定階段的產物,源于人工智能系統(tǒng)生成對抗網絡(GAN)的進步。
GAN由生成器和識別器兩個相互競爭的系統(tǒng)組成。建立GAN的第一步是識別所需的輸出,并為生成器創(chuàng)建一個培訓數據集。一旦生成器開始創(chuàng)建可接受的輸出內容,就可以將視頻剪輯提供給識別器進行鑒別;如果鑒別出視頻是假的,就會告訴生成器在創(chuàng)建下一個視頻時需要修正的地方。
根據每次的“對抗”結果,生成器會調整其制作時使用到的參數,直到鑒別器無法辨別生成作品和真跡,以此將現有圖像和視頻組合并疊加到源圖像上,終于生成合成視頻。典型的“深度合成”主要包括人臉替換、人臉再現、人臉合成以及語音合成四種形式。
深度合成真正走紅其實是一場意外。2017年,美國新聞網站 Reddit的一個名為“deepfakes”的用戶上傳了經過數字化篡改的色情視頻,即這些視頻中的成人演員的臉被替換成了電影明星的臉。此后,Reddit網站就成為了分享虛假色情視頻的一個陣地。盡管后來 Reddit網站上的 deepfake 論壇因為充斥著大量合成的色情視頻而被關閉,但deepfake背后的人工智能技術卻引起了技術社區(qū)的廣泛興趣,開源方法和工具性的應用不斷涌現,比如,FakeAPP、face2face等。
今天, 隨著技術進步,深度合成在影視制作、廣告營銷、社交娛樂等領域應用不斷豐富,包括AI合成主播、虛擬偶像、修復歷史老照片等。與此同時,越來越多的企業(yè)機構利用深度合成技術提供面向公眾的產品和服務:支持風格定制的特效視頻制作軟件;語音方向衍生出語音導航、有聲讀物等應用;文本合成在新聞報道、聊天問答等方面使用廣泛。
可以預見,未來,隨著自動數據生成、全身合成、3D塑型等技術的逐漸成型,一個新的人類生存場景將以深度合成技術為基石展開。不過,深度合成在激發(fā)了新內容創(chuàng)造力的同時,也帶來了新的威脅。
一方面,隨著深度合成內容的制作門檻大大降低,不法分子就可輕易偽造音頻、視頻,實施詐騙、勒索等違法行為。這從這兩年的社會新聞就可見一斑。
近兩年來,在浙江、安徽、江蘇等地,多名盜取個人信息的犯罪嫌疑人被公安部門抓獲。犯罪嫌疑人作案流程極為雷同:先是非法獲取他人照片或有償收購他人聲音等“物料”,然后利用人工智能技術將照片“活化”、合成動態(tài)視頻,之后或直接騙過社交平臺、支付寶賬戶的人臉核驗機制,進行非法獲利。
另一方面,深度合成內容模糊了真實和虛假的邊界,將對社會信任、媒體信任產生巨大的影響。虛假內容的高難度甄別影響了事實核查的有效性,在社會重大事件或政治事件節(jié)點上,深度合成技術可能被用于操作輿論意見,借助社交媒體,使虛假信息短時間內引發(fā)產生病毒式擴散,激化社會矛盾。
深度合成的泛濫進一步增加侵犯肖像權和隱私權的可能,沒人愿意自己的臉龐出現在莫名其妙的視頻當中。深度偽造技術的最初就是被應用于色情行業(yè),如今,這一應用對肖像權和隱私的侵害隨著深度偽造向著廉價造假轉化仍然在放大。于是,借助一些低價乃至免費的軟件,消費者無需專業(yè)知識和技術能力,即可通過終端實現調整速度、攝像頭效果、更換背景、實現換臉等操作。
技術怎么規(guī)制技術?
深度合成帶來的負面風險不斷加劇,如何有效甄別深度合成內容就成了關鍵。
過去,生物特征測試被認為是深度合成內容的重要技術,但實際上,眨眼測試等根據生物特征進行鑒別的方式,是非常低效、不可靠的,只能階段性地起作用,而且隨著深度合成技術的發(fā)展進化,生物特征測試越來越難以發(fā)揮作用。相反,深度合成內容的檢測識別,需要基于AI的鑒別技術,來實現對深度合成內容的自動化檢測。
但是,學術和商業(yè)界的防偽開發(fā)項目多針對特定產品而非通用的音頻或視頻,即需要針對每一種新興的視頻內容篡改技術都訓練一個對應的鑒別網絡,還沒有通用性的視頻鑒別網絡。簡單來說,隨著深度合成技術的進化,雖然學界和業(yè)界已在大量投入和支持鑒別技術的開發(fā),但目前的鑒別網絡多針對特定的深度合成方法,尚沒有通用的鑒別網絡,因此AI檢測工具需要隨時更新。
正如 Photo DNA(識別和屏蔽兒童色情圖片的技術)技術開發(fā)者、達特茅斯學院教授 Hany Farid 所說,我們距離能夠確切地識別深度合成內容的鑒別技術還有幾十年的路要走。這意味著,在深度合成技術上,如果想要用技術來規(guī)制技術風險,還需要加大對通用且高效鑒偽技術的研發(fā)投入和支持力度。比如,美國國防部高級研究計劃局(DARPA)目前有兩個項目致力于深度合成內容的檢測鑒別——媒體鑒定(Media Forensics)和語義鑒定(Semantic Forensics)。
其中,媒體鑒定項目計劃開發(fā)一個算法平臺,自動評估照片和視頻的完整性,并向分析師提供有關假冒內容是如何生成的信息。語義鑒定平臺試圖開發(fā)一種媒體信息的自動識別方法,檢測并識別不尋常的信息或面部特征。無論是媒體鑒定還是語義鑒定,兩者都是為了提高識別和對抗虛假信息的能力。
除了開發(fā)通用的鑒別技術外,用技術規(guī)制技術的另一方面,就是開發(fā)深度合成的溯源技術。實際上,一直以來,人們都有試圖通過技術手段遏制深度造假的泛濫。2019年,斯坦福大學研究員Tom Van de Weghe聯合計算機、新聞等行業(yè)的專家,成立了深度造假研究小組,以提升公眾對這一現象的認知度,設計深度造假的識別應對方案。
然而,技術發(fā)展速度往往高于破解速度。隨著鑒別器在識別假視頻方面做得越來越好,生成器在創(chuàng)建假視頻方面也做得越來越好。理論上,只要給GAN當前掌握的所有鑒別技術,它就能通過學習進行自我進化,規(guī)避鑒別監(jiān)測。攻擊會被防御反擊,反過來又被更復雜的攻擊所抵消。
這使得深度合成技術的檢測與反檢測逐漸演變成一場貓捉老鼠的技術競賽,深度合成技術正在快速更新以逃避檢測工具的識別。因此,還需要從內容源頭上區(qū)分真實內容與合成內容,確認內容的來源包括制作者、制作的地點等。
有一種設想是提供一種標記方法,要求用戶在特定位置標識內容的原始來源或注明內容是否已經過編輯。但是標記和分類的前提是用戶或平臺能夠確定特定內容是否真實,而運用區(qū)塊鏈技術進行內容識別被認為是一種有效的解決方案。
目前市場上一些語音合成和視頻合成設備的制造商已經使用各種時間戳工具,在由特定設備創(chuàng)建的圖像和視頻上添加數字水印或數字簽名,用來記錄圖像或視頻是在何時何地拍攝的,用的什么設備等信息,這些可以用來檢測某個文件是否隨著時間的推移而被修改。
“貓鼠游戲”的下一步是什么?
科技進步,不僅在于技術的進步,還應展現人類駕馭技術的進步和智慧,顯然,想要發(fā)揮深度合成技術的最大效益,就必須與深度合成進行一場持續(xù)的攻守。
一方面,仍要持續(xù)發(fā)展深度合成技術,而不能“一刀切”地禁止,這將會阻礙正向應用與創(chuàng)新。顯然,隨著人工智能時代的到來,下一代媒體將由人工智能驅動,人工智能可能給數字內容領域帶來重塑。其中,可以實現換臉、人臉合成、語音合成、視頻生成甚至數字虛擬人等諸多應用形式的深度合成技術,作為人工智能發(fā)展到一定階段的產物,正在進入商業(yè)化階段。
短期內,深度合成技術已經作用于影視、娛樂和社交等諸多領域,它們或是被用于升級傳統(tǒng)的音視頻處理或后期技術,帶來更好的影音體驗;或是被用來進一步打破語言障礙,優(yōu)化社交體驗。中長期來看,深度合成技術還可以基于其深度仿真的特征,超越時空限制,加深我們與虛擬世界的交互,也可以基于其合成性,創(chuàng)造一些超越真實世界的素材。尤其是元宇宙概念的流行,更是為深度合成技術提供了更加寬廣的應用場景。
另一方面,面對深度合成衍生出的安全問題,除了要從源頭上解決,利用技術創(chuàng)新、技術對抗等方式,持續(xù)提升和迭代檢測技術的能力外,還需要通過政府與社會組織參與、協同治理。
在我國,2019年以來陸續(xù)出臺《網絡音視頻信息服務管理規(guī)定》《網絡信息內容生態(tài)治理規(guī)定》《互聯網信息服務算法推薦管理規(guī)定》等法規(guī),對生成合成類內容等提出了不同程度的監(jiān)管要求。新公布的《互聯網信息服務深度合成管理規(guī)定》進一步提出,深度合成服務提供者深度合成服務時,應當使用顯著方式對深度合成信息內容進行標識。
此外,美國從聯邦和州層面進行了專門立法,歐盟將深度合成納入《通用數據保護條例(GDPR)》等現有法律框架規(guī)制。德國、新加坡、英國、韓國等國家,均有適用于深度合成技術相關犯罪案件審理的法律法規(guī)。
不過,雖然目前各國都在積極探尋有效治理機制,但由于深度合成往往基于公開照片的生成,這令其很難真正被發(fā)現。而一旦被發(fā)現,誰又有權利刪除數據?違法者或侵權者的數據是否擁有同樣的權利?此外,當平臺發(fā)現疑似深度偽造視頻時,它是否能簡單刪除以規(guī)避責任,這種行為又是否會阻礙傳播自由?
本質上來看,深度合成的問題就是透明度不足。因此,從各個層面提高公眾對深度合成技術的認知尤為重要,只有將門檻降低到所有受眾能夠在共同框架下認識、理解這個問題的時候,深度合成技術才能健康良性發(fā)展。
說到底,如何最大限度地實現深度合成技術的社會效益和商業(yè)效應,依然是一場持續(xù)的攻守?!柏埵笥螒颉边€會進行下去,在反復的博弈中,人們也將進入一個機遇與挑戰(zhàn)并存的深度合成的新階段。
關鍵詞: 安全風險