當(dāng)前位置：科技 >

佘俏俏：AIGC正在顛覆現(xiàn)有的內(nèi)容生產(chǎn)方式｜2023 ChinaJoy AIGC大會(huì)

文章來(lái)源：鈦媒體APP　發(fā)布時(shí)間： 2023-07-29 23:29:56　責(zé)任編輯：cfenews.com

+|-

7月28日至7月31日第20屆中國(guó)國(guó)際數(shù)碼互動(dòng)娛樂(lè)展覽會(huì)（ChinaJoy）在上海舉行。7月28日，由漢威信恒主辦，鈦媒體集團(tuán)協(xié)辦的2023 ChinaJoy AIGC大會(huì)正式召開。大會(huì)聚焦時(shí)下熱議的AIGC行業(yè)，邀請(qǐng)國(guó)內(nèi)外AIGC領(lǐng)域的行業(yè)代表專家、學(xué)者、企業(yè)大咖重磅參會(huì)，從技術(shù)層面、應(yīng)用層面、價(jià)值投資層面，全生態(tài)視角探討AIGC技術(shù)下的內(nèi)容產(chǎn)業(yè)新業(yè)態(tài)。

百度知識(shí)圖譜部總監(jiān)佘俏俏進(jìn)行了題為《AIGC技術(shù)助力視覺(jué)創(chuàng)作新業(yè)態(tài)》的主題演講。

余俏俏認(rèn)為，AIGC正在以更低成本和更快速度改變內(nèi)容生產(chǎn)方式。

【資料圖】

百度推出的AI繪畫產(chǎn)品"文心一格"，可以為專業(yè)和大眾創(chuàng)作者提供創(chuàng)作平臺(tái)。它能理解用戶需求，自動(dòng)補(bǔ)全模糊內(nèi)容，生成高質(zhì)量圖片。用戶還可以訓(xùn)練自定義模型，生成一系列風(fēng)格一致的圖片。

在視頻創(chuàng)作方面，AI可以幫助創(chuàng)作者快速生成高質(zhì)量視頻?？缒B(tài)大模型能實(shí)現(xiàn)不同模態(tài)間的語(yǔ)義級(jí)對(duì)齊，甚至直接生成高清、優(yōu)美的原生視頻素材。同時(shí)還構(gòu)建了一套智能視頻創(chuàng)作系統(tǒng)，整合多種技術(shù)，自動(dòng)產(chǎn)生視頻。

未來(lái)，大模型和知識(shí)技術(shù)將進(jìn)一步提升AIGC效果。在算法、算力、數(shù)據(jù)和知識(shí)方面都將有所提升，使AIGC具有更強(qiáng)的交互界面、自主可控性、可解釋性，并能生成更高維度的內(nèi)容。

以下是余俏俏在2023 ChinaJoy AIGC大會(huì)上的演講全文（略經(jīng)鈦媒體App整理）：

大家好！

很高興能在這里跟大家分享百度AIGC技術(shù)與應(yīng)用上的進(jìn)展和思考，今天在這里我主要跟大家從圖片生成、視頻生成兩方面來(lái)講。

請(qǐng)大家想象一下，我們坐在電影院里，大屏幕上正在播放一部電影，它的情節(jié)非常精彩，視覺(jué)效果非常震撼，黃昏的時(shí)候金色的海岸線上出現(xiàn)了一艘巨大的船，船的底部落下了很多神秘的發(fā)光體，在發(fā)光體里好像有一些未知的外來(lái)生物。在電影的結(jié)尾，制作方告訴我們，這部電影完全是由AIGC來(lái)生成的。站在今天的節(jié)點(diǎn)上，這樣的事情已經(jīng)不是什么科幻的想象了，而是AIGC技術(shù)將在不遠(yuǎn)的將來(lái)就能實(shí)現(xiàn)的了。

70多年前的1950年，圖靈測(cè)試這一思想實(shí)驗(yàn)的提出，預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性。后面的若干年，人工智能發(fā)展幾經(jīng)起落，終于在最近十年，隨著深度學(xué)習(xí)的興起，以及語(yǔ)言、圖像、視頻等生成式建模技術(shù)爆發(fā)式的發(fā)展，我們迎來(lái)了生成式人工智能新時(shí)代。

在生成式人工智能的時(shí)代里，人工智能生成內(nèi)容自然是非常受關(guān)注的一大類應(yīng)用，所謂AIGC，就是用人工智能來(lái)生產(chǎn)內(nèi)容。AIGC正在顛覆現(xiàn)有的內(nèi)容生產(chǎn)方式，以十分之一的成本，以百倍千倍的速度生成AI原創(chuàng)的內(nèi)容，它不僅會(huì)提升內(nèi)容生產(chǎn)的效率，也會(huì)創(chuàng)造出獨(dú)特的價(jià)值和獨(dú)立視角的內(nèi)容，從而帶來(lái)內(nèi)容生產(chǎn)、內(nèi)容消費(fèi)模式的突破。

AIGC技術(shù)發(fā)展的主角是生成式大模型，預(yù)訓(xùn)練模型的橫空出世，標(biāo)志著基于大規(guī)模數(shù)據(jù)在大參數(shù)量模型的訓(xùn)練能為AI帶來(lái)顛覆式效果的提升。此后，各類大模型在語(yǔ)言理解、生成、跨模態(tài)理解與生成、生物計(jì)算等領(lǐng)域不斷刷新相應(yīng)領(lǐng)域的水平。最近，以O(shè)penAI的GPT系列，百度文心大模型系列等為代表的生成式大模型將AIGC技術(shù)推向了新的高度。

文心一格是依托于百度飛槳文心大模型技術(shù)創(chuàng)新推出的AI繪畫產(chǎn)品，文心一格的含義是一語(yǔ)成畫，別具一格。用戶非常廣泛，既能為專業(yè)的視覺(jué)內(nèi)容創(chuàng)作者提供豐富的創(chuàng)作靈感，輔助其進(jìn)行藝術(shù)創(chuàng)作，也能為文字內(nèi)容的創(chuàng)作者提供高效、高質(zhì)量的配圖，還為廣大大眾用戶提供零門檻的創(chuàng)作平臺(tái)，讓所有人能把自己的想法變成畫作，實(shí)現(xiàn)自己獨(dú)一無(wú)二的作品。

在文心一格的背后是百度自研的一套基于知識(shí)與大模型的文生圖系統(tǒng)。首先，基于知識(shí)的智能Prompt工程，Prompt工程能很好地理解用戶的需求，并構(gòu)建出適合于AI繪畫的輸出表示?；谳敵觯缒B(tài)大模型會(huì)生成圖像，圖像能滿足用戶的需求，又能兼具美感和實(shí)用性，平臺(tái)還可以為用戶提供非常豐富的圖像編輯能力，讓用戶在圖像基礎(chǔ)上進(jìn)行調(diào)整，達(dá)到滿意的狀態(tài)。在流程中，各個(gè)模塊都充分利用用戶反饋持續(xù)優(yōu)化迭代。

這套文生圖系統(tǒng)是基于昆侖芯、飛槳、文心大模型、百度知識(shí)圖譜構(gòu)建的，全棧技術(shù)自研，自主可控。

接下來(lái)用例子說(shuō)明基于知識(shí)的Prompt學(xué)習(xí)，用戶用自然語(yǔ)言描述自己畫圖的需求，但自然語(yǔ)言描述往往因?yàn)槟：?、不確定性，跟實(shí)際上他想畫出來(lái)的圖像會(huì)有非常大的差異。另一方面，如果用戶想要畫出非常精美的圖，需要掌握一定的AI繪畫技巧，而技巧需要一定的學(xué)習(xí)成本，需要學(xué)如何描述畫面，如何指定風(fēng)格，補(bǔ)充修飾詞等等。

為此，文心一格提出了基于知識(shí)的Prompt學(xué)習(xí)，能夠很好地理解用戶需求背后蘊(yùn)含的信息，對(duì)模糊地帶的內(nèi)容進(jìn)行自動(dòng)補(bǔ)全，并且完善Prompt，使得它能夠生成更高質(zhì)量的圖片。

文心一格的主界面首創(chuàng)了生成與編輯融合的交互方式，用戶可以一邊創(chuàng)作，一邊用編輯調(diào)整自己的圖片，來(lái)達(dá)到很滿意的狀態(tài)。例如可以涂抹編輯，把主角的衣服變成自己想要的樣子，也可以將兩張圖片疊加，生成一張獨(dú)一無(wú)二的寶石蟹。

在一格，用戶還可以輸入幾張圖片素材，就能快速訓(xùn)練出自定義的模型，產(chǎn)出畫面風(fēng)格一致，或者主體一致的一系列自己想要的圖片。

以上是文生圖技術(shù)和AI繪畫平臺(tái)文心一格，接下來(lái)說(shuō)說(shuō)視頻創(chuàng)作。

在視頻內(nèi)容創(chuàng)作時(shí)，創(chuàng)作者往往會(huì)受限于自身經(jīng)歷、記憶力、創(chuàng)作工具的熟練程度等因素限制。但是在AI的幫助下，創(chuàng)作者指定相應(yīng)文章或主題，就能快速得到視頻，而且質(zhì)量還不錯(cuò)，我們接下來(lái)看一個(gè)例子，輸入主題“上海與科技”，AI自動(dòng)生成出了什么樣的視頻。

在視頻內(nèi)容的創(chuàng)作中，視頻素材質(zhì)量和豐富程度決定了最終效果，如何獲取視頻素材，尤其是高質(zhì)量的視頻素材，主要有兩類方法：跨模態(tài)匹配、跨模態(tài)生成。

但無(wú)論是哪種方法，最核心的技術(shù)難題是如何實(shí)現(xiàn)文本、圖片、視頻片段等不同模態(tài)之間的語(yǔ)義級(jí)對(duì)齊。

團(tuán)隊(duì)在業(yè)界首次提出了基于統(tǒng)一建模的視文一體跨模態(tài)大模型，解決了這一業(yè)界難題。可以看到，多概念細(xì)粒度的精準(zhǔn)對(duì)齊已經(jīng)實(shí)現(xiàn)做到了，基于統(tǒng)一建模的跨模態(tài)大模型，還實(shí)現(xiàn)了直接生成高清、優(yōu)美、富有創(chuàng)意的原生視頻素材。

基于文心大模型，特別是統(tǒng)一建模的跨模態(tài)大模型，構(gòu)造了一整套智能視頻創(chuàng)作系統(tǒng)。

具體來(lái)說(shuō)，創(chuàng)新整合了包括語(yǔ)言、視覺(jué)、語(yǔ)音、跨模態(tài)等一系列技術(shù)能力，參考了人在視頻創(chuàng)作過(guò)程中的策、采、編，實(shí)現(xiàn)了文案理解與生成、素材分析與處理、素材擴(kuò)充與編排等步驟，自動(dòng)生成視頻，在這套系統(tǒng)基礎(chǔ)上，百度實(shí)現(xiàn)了輔助的視頻創(chuàng)作系統(tǒng)。

以上介紹的AIGC技術(shù)百度已經(jīng)用在了眾多領(lǐng)域，包括自媒體創(chuàng)作、游戲原畫、廣告營(yíng)銷、工業(yè)設(shè)計(jì)等。AIGC技術(shù)已經(jīng)帶來(lái)了哪些對(duì)視覺(jué)內(nèi)容創(chuàng)作的新變化呢？

第一，AIGC技術(shù)提升了內(nèi)容創(chuàng)作的效率，無(wú)論是海報(bào)制作還是短視頻制作，在整體成本降低和制作時(shí)間降低上非常顯著。

第二，AIGC能夠助力人們把自己天馬行空的想象付諸于實(shí)現(xiàn)，創(chuàng)造出屬于自己的獨(dú)特作品，同時(shí)能夠?yàn)橛脩籼峁┴S富多彩超出想象的新創(chuàng)意。

第三，AIGC能夠降低創(chuàng)作成本，讓更多人更容易地加入到視覺(jué)內(nèi)容創(chuàng)作中來(lái)，如果需要寫實(shí)的海報(bào)，可以不用找專人，不用布景拍攝就能實(shí)現(xiàn)。小孩子天馬行空的想象也可以快速變成繪本。非設(shè)計(jì)背景的人如果工作中需要設(shè)計(jì)圖樣，也可以借助AI實(shí)現(xiàn)，短視頻創(chuàng)作者可以更加聚焦精力在深度洞察和特色打造上，因?yàn)锳I可以在全流程幫助他。

未來(lái)，大模型與知識(shí)技術(shù)將推動(dòng)AIGC效果有質(zhì)的提升。在算法層面，大模型將進(jìn)一步統(tǒng)一更多模態(tài)、任務(wù)、場(chǎng)景；在算力層面，將硬件利用率進(jìn)一步提高，并且形成更高性能的能力；在數(shù)據(jù)層面，將從之前更多強(qiáng)調(diào)規(guī)模到更強(qiáng)調(diào)質(zhì)量，以及與模型打造更好的迭代閉環(huán)；在知識(shí)層面，更強(qiáng)調(diào)精準(zhǔn)、更多形態(tài)，AI推理和決策中發(fā)揮更重要的作用。

這些技術(shù)的持續(xù)提升，將使AIGC技術(shù)具有更強(qiáng)的語(yǔ)言交互界面，更好的自主可控性、可解釋性，生成更高維度的時(shí)空內(nèi)容。

把AI與人類創(chuàng)造力結(jié)合在一起，可以開拓內(nèi)容視覺(jué)創(chuàng)作非常廣闊的未來(lái)。期待以AI為筆，我們共同描繪更精彩的未來(lái)。

以上PPT中的所有畫面畫作都是用文心一格生成的，歡迎大家掃碼體驗(yàn)，感謝大家的聆聽，歡迎多多交流，謝謝大家！

關(guān)鍵詞：

更多資訊>>