人工智能的發(fā)展應(yīng)用離不開數(shù)據(jù)。比如,訓(xùn)練當(dāng)前大火的ChatGPT,就需要大量的數(shù)據(jù)——根據(jù)OpenAI披露,ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬億個單詞,大概是1351萬本牛津詞典所包含的單詞數(shù)量。
【資料圖】
基于龐大數(shù)據(jù)集訓(xùn)練而成的ChatGPT獲得了前所未有的成功,而ChatGPT想要向前迭代,就需要更多的數(shù)據(jù)進行訓(xùn)練。但真實世界的數(shù)據(jù)總歸是有限的,并且面臨著難以獲取、質(zhì)量差、標(biāo)準不統(tǒng)一等諸多問題。在這樣的情況下,計算機模擬技術(shù)或算法生成的合成數(shù)據(jù)受到了愈發(fā)廣泛的關(guān)注。作為真實世界數(shù)據(jù)的廉價替代品,合成數(shù)據(jù)正日益被用于創(chuàng)造精準的AI模型。
為什么需要合成數(shù)據(jù)?
顧名思義,合成數(shù)據(jù)就是通過計算機模擬或人工智能算法合成的數(shù)據(jù),這樣的數(shù)據(jù)并不基于現(xiàn)實世界的現(xiàn)象和事件,但由于在數(shù)學(xué)上或統(tǒng)計學(xué)上,合成數(shù)據(jù)也能夠反映真實世界數(shù)據(jù)的屬性,因此,合成數(shù)據(jù)可以作為真實世界數(shù)據(jù)的替代品,來訓(xùn)練、測試、驗證AI模型。
2022年以來,F(xiàn)orrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨詢公司都已經(jīng)將合成數(shù)據(jù)列為人工智能未來發(fā)展的核心要素,認為合成數(shù)據(jù)對于人工智能的未來而言是“必選項”和“必需品”。
比如,F(xiàn)orrester將合成數(shù)據(jù)和強化學(xué)習(xí)、Transformer網(wǎng)絡(luò)、聯(lián)邦學(xué)習(xí)、因果推理視為實現(xiàn)人工智能2.0的五項關(guān)鍵技術(shù)進展,可以解決人工智能1.0所面臨的一些限制和挑戰(zhàn),諸如數(shù)據(jù)、準確性、速度、安全性、可擴展性等。
Gartner預(yù)測稱,到2024年,用于開發(fā)人工智能和分析項目的數(shù)據(jù) 60% 將是生成式合成數(shù)據(jù),到2030年合成數(shù)據(jù)將徹底取代真實數(shù)據(jù),成為AI模型所使用的數(shù)據(jù)的主要來源。MIT科技評論將AI合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一,稱其有望解決AI領(lǐng)域的數(shù)據(jù)鴻溝問題。
數(shù)據(jù)對于人工智能發(fā)展的意義不言自明——如果說以深度學(xué)習(xí)為代表的智能算法是人工智能應(yīng)用和發(fā)展的“引擎”,那么數(shù)據(jù)就是用于驅(qū)動“引擎”的“燃料”。而合成數(shù)據(jù)之所以在今天會受到關(guān)注,正是因為目前現(xiàn)實世界的數(shù)據(jù)已經(jīng)難以滿足人工智能繼續(xù)迭代,并向前發(fā)展的數(shù)據(jù)需求。
要知道,現(xiàn)實世界的數(shù)據(jù)收集和處理是一種昂貴且緩慢的過程,公司通常無法在短時間內(nèi)獲取大量的數(shù)據(jù)來訓(xùn)練準確的模型,就算是獲取現(xiàn)實世界的數(shù)據(jù)也要符合隱私規(guī)定,然而,除去獲取成本高昂以外,特定領(lǐng)域的數(shù)據(jù)集還受限于用戶隱私,極難采集。可以說,現(xiàn)實世界數(shù)據(jù)的稀缺性已經(jīng)成為人工智能發(fā)展的最大瓶頸——如何高效、廉價并在不侵犯隱私的情況下獲取大量數(shù)據(jù),成為當(dāng)前人工智能領(lǐng)域的關(guān)鍵問題之一。
合成數(shù)據(jù)就是這個關(guān)鍵問題的解法。首先,合成數(shù)據(jù)能夠?qū)崿F(xiàn)數(shù)據(jù)增強和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問題,包括通過合成數(shù)據(jù)來改善基準測試數(shù)據(jù)的質(zhì)量等;其次,避免數(shù)據(jù)隱私問題,利用合成數(shù)據(jù)訓(xùn)練AI模型可以避免用戶隱私問題,這對于金融、醫(yī)療等領(lǐng)域而言尤其具有意義;第三,合成數(shù)據(jù)還能最大限度地確保數(shù)據(jù)多樣性,更多反映真實世界,提升AI的公平性,以及糾正歷史數(shù)據(jù)中的偏見,消除算法歧視;第四,合成數(shù)據(jù)能夠應(yīng)對長尾、邊緣案例,提高AI的準確性、可靠性,因為通過合成數(shù)據(jù)可以自動創(chuàng)建、生成現(xiàn)實世界中難以或者無法采集的數(shù)據(jù)場景,更好確保AI模型的準確性。
不僅如此,合成數(shù)據(jù)還具有低成本的特點。合成數(shù)據(jù)服務(wù)商AI.Reverie指出,人工標(biāo)注一張圖片可能需要6美元,但人工合成的話只需要6美分??偟膩碚f,利用合成數(shù)據(jù)可以更廉價、更高效、更準確、更安全可靠地訓(xùn)練AI模型,進而極大擴展AI的應(yīng)用可能性,將人工智能推向新的發(fā)展階段。
用計算機訓(xùn)練計算機
2021年,尼日利亞數(shù)據(jù)科學(xué)公司的研究人員就注意到,旨在訓(xùn)練計算機視覺算法的工程師可以選用大量以西方服裝為特色的數(shù)據(jù)集,但卻沒有非洲服裝的數(shù)據(jù)集。于是,這個團隊通過人工智能算法成功實現(xiàn)了人為生成由非洲時尚服裝的圖像組成的數(shù)據(jù)來解決這一不平衡問題。
可以說,合成數(shù)據(jù)真正實現(xiàn)了用計算機訓(xùn)練計算機,這也讓機器智能向前更進一步。實際上,人類的學(xué)習(xí)正是遵循著這樣的方式,一方面,我們可以從外部信息來源收集知識和觀點,比如,通過閱讀一本書。但我們也可以通過思考一個問題,自發(fā)產(chǎn)生想法和見解,換言之,我們能夠通過內(nèi)部反思和分析來加深對世界的理解,而不直接依賴于任何新的外部輸入。
而人工智能通過合成數(shù)據(jù)來自我訓(xùn)練,就像是人工智能也無需任何新的外部輸入,而是通過合成數(shù)據(jù)來有效地引導(dǎo)它們自己的智能。
試想一下,今天的人工智能大模型吸收了世界上存在的大量信息和數(shù)據(jù),比如維基百科、書籍、新聞文章等。如果人工智能能夠根據(jù)這些數(shù)據(jù)合成新的數(shù)據(jù),然后再將這些合成數(shù)據(jù)進一步訓(xùn)練來改進自己,那人工智能就將不斷迭代,且功能愈發(fā)強大。換言之,AI在合成數(shù)據(jù)構(gòu)建的虛擬仿真世界中自我學(xué)習(xí)、進化,這將極大擴展AI的應(yīng)用可能性。
實際上,用計算機訓(xùn)練計算機的想法并不新鮮,例如,無人駕駛汽車已經(jīng)在虛擬街道上進行了許多訓(xùn)練。要知道,由于實際道路交通場景千變?nèi)f化,因此,讓自動駕駛汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現(xiàn)實的,必須借助于合成數(shù)據(jù)才能更好地訓(xùn)練、開發(fā)自動駕駛系統(tǒng)。
為此,許多自動駕駛企業(yè)都開發(fā)了復(fù)雜的仿真引擎來“虛擬地合成”自動駕駛系統(tǒng)訓(xùn)練所需的海量數(shù)據(jù),并高效地應(yīng)對駕駛場景中的“長尾”問題和“邊緣案例”。比如,騰訊自動駕駛實驗室開發(fā)的自動駕駛仿真系統(tǒng)TAD Sim 可以自動生成無需標(biāo)注的各種交通場景數(shù)據(jù),助力自動駕駛系統(tǒng)開發(fā)。
在安全的、合成的仿真環(huán)境中,計算機可以模擬任何人類想象得到的駕駛場景,諸如調(diào)節(jié)天氣狀況、添加或移除行人、改變其他車輛的位置等等??梢哉f,合成數(shù)據(jù)和仿真技術(shù)是自動駕駛的核心支撐技術(shù)。實際上,最早涌現(xiàn)的一批合成數(shù)據(jù)創(chuàng)業(yè)公司就瞄準的是自動駕駛汽車市場,幫助自動駕駛企業(yè)解決其在自動駕駛系統(tǒng)開發(fā)過程中所面臨的數(shù)據(jù)和測試難題。
目前,合成數(shù)據(jù)還在向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展應(yīng)用,用計算機訓(xùn)練計算機正在成為人工智能發(fā)展的必經(jīng)之路。
下一次飛躍
由于對人工智能未來發(fā)展的巨大價值,合成數(shù)據(jù)也加速成為AI領(lǐng)域的一個新產(chǎn)業(yè)賽道。
一方面,國外的主流科技公司紛紛瞄準合成數(shù)據(jù)領(lǐng)域加大投入與布局。微軟的Azure云服務(wù)則推出了airSIM平臺,可以創(chuàng)建高保真的(high fidelity)的3D虛擬環(huán)境來訓(xùn)練、測試AI驅(qū)動的自主飛行器,微軟還開發(fā)了可以生成合成和聚合數(shù)據(jù)集的開源工具Synthetic Data Showcase,并創(chuàng)建了合成人臉數(shù)據(jù)庫,和國際移民組織(IOM)合作打擊人口販賣。亞馬遜則在多個場景探索合成數(shù)據(jù)的應(yīng)用,例如使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問題;其合成數(shù)據(jù)技術(shù)Wordforge工具可以用來創(chuàng)建合成場景(synthetic scenes)。
另一方面,合成數(shù)據(jù)作為AI領(lǐng)域的新型產(chǎn)業(yè),相關(guān)創(chuàng)新創(chuàng)業(yè)方興未艾,合成數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn),合成數(shù)據(jù)領(lǐng)域的投資并購持續(xù)升溫。據(jù)國外研究者統(tǒng)計,目前全球合成數(shù)據(jù)創(chuàng)業(yè)企業(yè)已達100家。在過去的18個月,公眾視野中已知的合成數(shù)據(jù)公司融資總額達到3.28億美元,比2020年高出2.75億美元。
看起來,合成數(shù)據(jù)是對真實數(shù)據(jù)稀缺性的重要解法,但這并不代表合成數(shù)據(jù)毫無問題。首先,雖然高質(zhì)量的合成數(shù)據(jù)集不僅可以作為真實數(shù)據(jù)集的補充,更可以作為訓(xùn)練人工智能模型的主要數(shù)據(jù)來源,但在全面應(yīng)用合成數(shù)據(jù)集之前,需要充分研究合成數(shù)據(jù)集與真實數(shù)據(jù)集的差異,從而避免應(yīng)用合成數(shù)據(jù)集帶來的偏差。因此,如何評估合成數(shù)據(jù)集與真實數(shù)據(jù)集的差異仍是一個有待解決的問題。
其次,合成數(shù)據(jù)仍存在“非自然數(shù)據(jù)”的問題。目前大多合成數(shù)據(jù)技術(shù)是基于統(tǒng)計機器學(xué)習(xí)方法的,由于經(jīng)典統(tǒng)計學(xué)只關(guān)注了數(shù)據(jù)中蘊含的相關(guān)性,而忽視了因果性,因此有可能會生成不合邏輯的數(shù)據(jù)。比如,合成圖像中可能會出現(xiàn)具有異常背景的圖像,這類數(shù)據(jù)被稱為“非自然數(shù)據(jù)”?!胺亲匀粩?shù)據(jù)”對智能算法的影響目前仍然未知??坍嬘绊懙倪吔绮⑻嵩缢伎紤?yīng)對辦法將會是合成數(shù)據(jù)能否進入風(fēng)險敏感領(lǐng)域的關(guān)鍵。
最后,合成數(shù)據(jù)仍然涉及的隱式隱私泄露問題。雖然“合成數(shù)據(jù)”并不由某個用戶產(chǎn)生,但是目前的合成數(shù)據(jù)仍然需要借用數(shù)據(jù)來訓(xùn)練用于合成數(shù)據(jù)的模型,比如生成對抗網(wǎng)絡(luò)。由于生成對抗網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度較高,因此在模型訓(xùn)練的過程中,存在記憶原始訓(xùn)練樣本分布的可能。已經(jīng)有最新研究結(jié)果表明,可以通過合成的數(shù)據(jù)反向推斷出原始訓(xùn)練樣本。所以,數(shù)據(jù)合成技術(shù)存在上述“隱式隱私”泄露問題,如何更嚴密地保護隱私仍是有待探究的問題。
從數(shù)據(jù)到合成數(shù)據(jù),當(dāng)人工智能能夠合成數(shù)據(jù),并使用它來繼續(xù)自我改變,這可能會使迫在眉睫的數(shù)據(jù)短缺變得無關(guān)緊要。對于人工智能來說,這將代表下一次的飛躍。