當(dāng)前位置：科技 >

深度合成安全風(fēng)險下，技術(shù)怎么規(guī)制技術(shù)？每日觀察

文章來源：鈦媒體APP　發(fā)布時間： 2023-01-29 11:11:47　責(zé)任編輯：cfenews.com

+|-

人工智能（AI）技術(shù)的進(jìn)步，讓一切的合成變得簡單和輕易。近年來，利用深度學(xué)習(xí)、虛擬現(xiàn)實等生成合成類算法制作圖像、音頻、視頻、虛擬場景等信息的深度合成技術(shù)，已在多個領(lǐng)域大量應(yīng)用，伴隨著不斷涌現(xiàn)的使用需求，深度合成內(nèi)容數(shù)量和關(guān)注度呈現(xiàn)快速增長態(tài)勢。

在深度合成快速發(fā)展的同時，挑戰(zhàn)也隨之而來。深度合成技術(shù)的日益精湛，導(dǎo)致合成的音頻、視頻等偽造內(nèi)容越來越能以假亂真，并由此帶來一系列關(guān)于安全的風(fēng)險。在這樣的背景下，除了立法進(jìn)行監(jiān)管，以技術(shù)規(guī)制技術(shù)成為深度合成的必然。問題是，技術(shù)該怎么規(guī)制技術(shù)？深度合成和檢測的“貓鼠游戲”的下一步又會是什么？

(資料圖片)

深度合成和新的風(fēng)險

深度合成技術(shù)是人工智能發(fā)展到一定階段的產(chǎn)物，源于人工智能系統(tǒng)生成對抗網(wǎng)絡(luò)（GAN）的進(jìn)步。

GAN由生成器和識別器兩個相互競爭的系統(tǒng)組成。建立GAN的第一步是識別所需的輸出，并為生成器創(chuàng)建一個培訓(xùn)數(shù)據(jù)集。一旦生成器開始創(chuàng)建可接受的輸出內(nèi)容，就可以將視頻剪輯提供給識別器進(jìn)行鑒別；如果鑒別出視頻是假的，就會告訴生成器在創(chuàng)建下一個視頻時需要修正的地方。

根據(jù)每次的“對抗”結(jié)果，生成器會調(diào)整其制作時使用到的參數(shù)，直到鑒別器無法辨別生成作品和真跡，以此將現(xiàn)有圖像和視頻組合并疊加到源圖像上，終于生成合成視頻。典型的“深度合成”主要包括人臉替換、人臉再現(xiàn)、人臉合成以及語音合成四種形式。

深度合成真正走紅其實是一場意外。2017年，美國新聞網(wǎng)站 Reddit的一個名為“deepfakes”的用戶上傳了經(jīng)過數(shù)字化篡改的色情視頻，即這些視頻中的成人演員的臉被替換成了電影明星的臉。此后，Reddit網(wǎng)站就成為了分享虛假色情視頻的一個陣地。盡管后來 Reddit網(wǎng)站上的 deepfake 論壇因為充斥著大量合成的色情視頻而被關(guān)閉，但deepfake背后的人工智能技術(shù)卻引起了技術(shù)社區(qū)的廣泛興趣，開源方法和工具性的應(yīng)用不斷涌現(xiàn)，比如，F(xiàn)akeAPP、face2face等。

今天，隨著技術(shù)進(jìn)步，深度合成在影視制作、廣告營銷、社交娛樂等領(lǐng)域應(yīng)用不斷豐富，包括AI合成主播、虛擬偶像、修復(fù)歷史老照片等。與此同時，越來越多的企業(yè)機(jī)構(gòu)利用深度合成技術(shù)提供面向公眾的產(chǎn)品和服務(wù)：支持風(fēng)格定制的特效視頻制作軟件；語音方向衍生出語音導(dǎo)航、有聲讀物等應(yīng)用；文本合成在新聞報道、聊天問答等方面使用廣泛。

可以預(yù)見，未來，隨著自動數(shù)據(jù)生成、全身合成、3D塑型等技術(shù)的逐漸成型，一個新的人類生存場景將以深度合成技術(shù)為基石展開。不過，深度合成在激發(fā)了新內(nèi)容創(chuàng)造力的同時，也帶來了新的威脅。

一方面，隨著深度合成內(nèi)容的制作門檻大大降低，不法分子就可輕易偽造音頻、視頻，實施詐騙、勒索等違法行為。這從這兩年的社會新聞就可見一斑。

近兩年來，在浙江、安徽、江蘇等地，多名盜取個人信息的犯罪嫌疑人被公安部門抓獲。犯罪嫌疑人作案流程極為雷同：先是非法獲取他人照片或有償收購他人聲音等“物料”，然后利用人工智能技術(shù)將照片“活化”、合成動態(tài)視頻，之后或直接騙過社交平臺、支付寶賬戶的人臉核驗機(jī)制，進(jìn)行非法獲利。

另一方面，深度合成內(nèi)容模糊了真實和虛假的邊界，將對社會信任、媒體信任產(chǎn)生巨大的影響。虛假內(nèi)容的高難度甄別影響了事實核查的有效性，在社會重大事件或政治事件節(jié)點上，深度合成技術(shù)可能被用于操作輿論意見，借助社交媒體，使虛假信息短時間內(nèi)引發(fā)產(chǎn)生病毒式擴(kuò)散，激化社會矛盾。

深度合成的泛濫進(jìn)一步增加侵犯肖像權(quán)和隱私權(quán)的可能，沒人愿意自己的臉龐出現(xiàn)在莫名其妙的視頻當(dāng)中。深度偽造技術(shù)的最初就是被應(yīng)用于色情行業(yè)，如今，這一應(yīng)用對肖像權(quán)和隱私的侵害隨著深度偽造向著廉價造假轉(zhuǎn)化仍然在放大。于是，借助一些低價乃至免費(fèi)的軟件，消費(fèi)者無需專業(yè)知識和技術(shù)能力，即可通過終端實現(xiàn)調(diào)整速度、攝像頭效果、更換背景、實現(xiàn)換臉等操作。

技術(shù)怎么規(guī)制技術(shù)？

深度合成帶來的負(fù)面風(fēng)險不斷加劇，如何有效甄別深度合成內(nèi)容就成了關(guān)鍵。

過去，生物特征測試被認(rèn)為是深度合成內(nèi)容的重要技術(shù)，但實際上，眨眼測試等根據(jù)生物特征進(jìn)行鑒別的方式，是非常低效、不可靠的，只能階段性地起作用，而且隨著深度合成技術(shù)的發(fā)展進(jìn)化，生物特征測試越來越難以發(fā)揮作用。相反，深度合成內(nèi)容的檢測識別，需要基于AI的鑒別技術(shù)，來實現(xiàn)對深度合成內(nèi)容的自動化檢測。

但是，學(xué)術(shù)和商業(yè)界的防偽開發(fā)項目多針對特定產(chǎn)品而非通用的音頻或視頻，即需要針對每一種新興的視頻內(nèi)容篡改技術(shù)都訓(xùn)練一個對應(yīng)的鑒別網(wǎng)絡(luò)，還沒有通用性的視頻鑒別網(wǎng)絡(luò)。簡單來說，隨著深度合成技術(shù)的進(jìn)化，雖然學(xué)界和業(yè)界已在大量投入和支持鑒別技術(shù)的開發(fā)，但目前的鑒別網(wǎng)絡(luò)多針對特定的深度合成方法，尚沒有通用的鑒別網(wǎng)絡(luò)，因此AI檢測工具需要隨時更新。

正如 Photo DNA（識別和屏蔽兒童色情圖片的技術(shù)）技術(shù)開發(fā)者、達(dá)特茅斯學(xué)院教授 Hany Farid 所說，我們距離能夠確切地識別深度合成內(nèi)容的鑒別技術(shù)還有幾十年的路要走。這意味著，在深度合成技術(shù)上，如果想要用技術(shù)來規(guī)制技術(shù)風(fēng)險，還需要加大對通用且高效鑒偽技術(shù)的研發(fā)投入和支持力度。比如，美國國防部高級研究計劃局（DARPA）目前有兩個項目致力于深度合成內(nèi)容的檢測鑒別——媒體鑒定（Media Forensics）和語義鑒定（Semantic Forensics）。

其中，媒體鑒定項目計劃開發(fā)一個算法平臺，自動評估照片和視頻的完整性，并向分析師提供有關(guān)假冒內(nèi)容是如何生成的信息。語義鑒定平臺試圖開發(fā)一種媒體信息的自動識別方法，檢測并識別不尋常的信息或面部特征。無論是媒體鑒定還是語義鑒定，兩者都是為了提高識別和對抗虛假信息的能力。

除了開發(fā)通用的鑒別技術(shù)外，用技術(shù)規(guī)制技術(shù)的另一方面，就是開發(fā)深度合成的溯源技術(shù)。實際上，一直以來，人們都有試圖通過技術(shù)手段遏制深度造假的泛濫。2019年，斯坦福大學(xué)研究員Tom Van de Weghe聯(lián)合計算機(jī)、新聞等行業(yè)的專家，成立了深度造假研究小組，以提升公眾對這一現(xiàn)象的認(rèn)知度，設(shè)計深度造假的識別應(yīng)對方案。

然而，技術(shù)發(fā)展速度往往高于破解速度。隨著鑒別器在識別假視頻方面做得越來越好，生成器在創(chuàng)建假視頻方面也做得越來越好。理論上，只要給GAN當(dāng)前掌握的所有鑒別技術(shù)，它就能通過學(xué)習(xí)進(jìn)行自我進(jìn)化，規(guī)避鑒別監(jiān)測。攻擊會被防御反擊，反過來又被更復(fù)雜的攻擊所抵消。

這使得深度合成技術(shù)的檢測與反檢測逐漸演變成一場貓捉老鼠的技術(shù)競賽，深度合成技術(shù)正在快速更新以逃避檢測工具的識別。因此，還需要從內(nèi)容源頭上區(qū)分真實內(nèi)容與合成內(nèi)容，確認(rèn)內(nèi)容的來源包括制作者、制作的地點等。

有一種設(shè)想是提供一種標(biāo)記方法，要求用戶在特定位置標(biāo)識內(nèi)容的原始來源或注明內(nèi)容是否已經(jīng)過編輯。但是標(biāo)記和分類的前提是用戶或平臺能夠確定特定內(nèi)容是否真實，而運(yùn)用區(qū)塊鏈技術(shù)進(jìn)行內(nèi)容識別被認(rèn)為是一種有效的解決方案。

目前市場上一些語音合成和視頻合成設(shè)備的制造商已經(jīng)使用各種時間戳工具，在由特定設(shè)備創(chuàng)建的圖像和視頻上添加數(shù)字水印或數(shù)字簽名，用來記錄圖像或視頻是在何時何地拍攝的，用的什么設(shè)備等信息，這些可以用來檢測某個文件是否隨著時間的推移而被修改。

“貓鼠游戲”的下一步是什么？

科技進(jìn)步，不僅在于技術(shù)的進(jìn)步，還應(yīng)展現(xiàn)人類駕馭技術(shù)的進(jìn)步和智慧，顯然，想要發(fā)揮深度合成技術(shù)的最大效益，就必須與深度合成進(jìn)行一場持續(xù)的攻守。

一方面，仍要持續(xù)發(fā)展深度合成技術(shù)，而不能“一刀切”地禁止，這將會阻礙正向應(yīng)用與創(chuàng)新。顯然，隨著人工智能時代的到來，下一代媒體將由人工智能驅(qū)動，人工智能可能給數(shù)字內(nèi)容領(lǐng)域帶來重塑。其中，可以實現(xiàn)換臉、人臉合成、語音合成、視頻生成甚至數(shù)字虛擬人等諸多應(yīng)用形式的深度合成技術(shù)，作為人工智能發(fā)展到一定階段的產(chǎn)物，正在進(jìn)入商業(yè)化階段。

短期內(nèi)，深度合成技術(shù)已經(jīng)作用于影視、娛樂和社交等諸多領(lǐng)域，它們或是被用于升級傳統(tǒng)的音視頻處理或后期技術(shù)，帶來更好的影音體驗；或是被用來進(jìn)一步打破語言障礙，優(yōu)化社交體驗。中長期來看，深度合成技術(shù)還可以基于其深度仿真的特征，超越時空限制，加深我們與虛擬世界的交互，也可以基于其合成性，創(chuàng)造一些超越真實世界的素材。尤其是元宇宙概念的流行，更是為深度合成技術(shù)提供了更加寬廣的應(yīng)用場景。

另一方面，面對深度合成衍生出的安全問題，除了要從源頭上解決，利用技術(shù)創(chuàng)新、技術(shù)對抗等方式，持續(xù)提升和迭代檢測技術(shù)的能力外，還需要通過政府與社會組織參與、協(xié)同治理。

在我國，2019年以來陸續(xù)出臺《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》等法規(guī)，對生成合成類內(nèi)容等提出了不同程度的監(jiān)管要求。新公布的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》進(jìn)一步提出，深度合成服務(wù)提供者深度合成服務(wù)時，應(yīng)當(dāng)使用顯著方式對深度合成信息內(nèi)容進(jìn)行標(biāo)識。

此外，美國從聯(lián)邦和州層面進(jìn)行了專門立法，歐盟將深度合成納入《通用數(shù)據(jù)保護(hù)條例（GDPR）》等現(xiàn)有法律框架規(guī)制。德國、新加坡、英國、韓國等國家，均有適用于深度合成技術(shù)相關(guān)犯罪案件審理的法律法規(guī)。

不過，雖然目前各國都在積極探尋有效治理機(jī)制，但由于深度合成往往基于公開照片的生成，這令其很難真正被發(fā)現(xiàn)。而一旦被發(fā)現(xiàn)，誰又有權(quán)利刪除數(shù)據(jù)？違法者或侵權(quán)者的數(shù)據(jù)是否擁有同樣的權(quán)利？此外，當(dāng)平臺發(fā)現(xiàn)疑似深度偽造視頻時，它是否能簡單刪除以規(guī)避責(zé)任，這種行為又是否會阻礙傳播自由？

本質(zhì)上來看，深度合成的問題就是透明度不足。因此，從各個層面提高公眾對深度合成技術(shù)的認(rèn)知尤為重要，只有將門檻降低到所有受眾能夠在共同框架下認(rèn)識、理解這個問題的時候，深度合成技術(shù)才能健康良性發(fā)展。

說到底，如何最大限度地實現(xiàn)深度合成技術(shù)的社會效益和商業(yè)效應(yīng)，依然是一場持續(xù)的攻守?！柏埵笥螒颉边€會進(jìn)行下去，在反復(fù)的博弈中，人們也將進(jìn)入一個機(jī)遇與挑戰(zhàn)并存的深度合成的新階段。

關(guān)鍵詞：安全風(fēng)險

更多資訊>>