7月28日至7月31日第20屆中國(guó)國(guó)際數(shù)碼互動(dòng)娛樂(lè)展覽會(huì)(ChinaJoy)在上海舉行。7月28日,由漢威信恒主辦,鈦媒體集團(tuán)協(xié)辦的2023 ChinaJoy AIGC大會(huì)正式召開。大會(huì)聚焦時(shí)下熱議的AIGC行業(yè),邀請(qǐng)國(guó)內(nèi)外AIGC領(lǐng)域的行業(yè)代表專家、學(xué)者、企業(yè)大咖重磅參會(huì),從技術(shù)層面、應(yīng)用層面、價(jià)值投資層面,全生態(tài)視角探討AIGC技術(shù)下的內(nèi)容產(chǎn)業(yè)新業(yè)態(tài)。
百度知識(shí)圖譜部總監(jiān)佘俏俏進(jìn)行了題為《AIGC技術(shù)助力視覺(jué)創(chuàng)作新業(yè)態(tài)》的主題演講。
余俏俏認(rèn)為,AIGC正在以更低成本和更快速度改變內(nèi)容生產(chǎn)方式。
【資料圖】
百度推出的AI繪畫產(chǎn)品"文心一格",可以為專業(yè)和大眾創(chuàng)作者提供創(chuàng)作平臺(tái)。它能理解用戶需求,自動(dòng)補(bǔ)全模糊內(nèi)容,生成高質(zhì)量圖片。用戶還可以訓(xùn)練自定義模型,生成一系列風(fēng)格一致的圖片。
在視頻創(chuàng)作方面,AI可以幫助創(chuàng)作者快速生成高質(zhì)量視頻??缒B(tài)大模型能實(shí)現(xiàn)不同模態(tài)間的語(yǔ)義級(jí)對(duì)齊,甚至直接生成高清、優(yōu)美的原生視頻素材。同時(shí)還構(gòu)建了一套智能視頻創(chuàng)作系統(tǒng),整合多種技術(shù),自動(dòng)產(chǎn)生視頻。
未來(lái),大模型和知識(shí)技術(shù)將進(jìn)一步提升AIGC效果。在算法、算力、數(shù)據(jù)和知識(shí)方面都將有所提升,使AIGC具有更強(qiáng)的交互界面、自主可控性、可解釋性,并能生成更高維度的內(nèi)容。
以下是余俏俏在2023 ChinaJoy AIGC大會(huì)上的演講全文(略經(jīng)鈦媒體App整理):
大家好!
很高興能在這里跟大家分享百度AIGC技術(shù)與應(yīng)用上的進(jìn)展和思考,今天在這里我主要跟大家從圖片生成、視頻生成兩方面來(lái)講。
請(qǐng)大家想象一下,我們坐在電影院里,大屏幕上正在播放一部電影,它的情節(jié)非常精彩,視覺(jué)效果非常震撼,黃昏的時(shí)候金色的海岸線上出現(xiàn)了一艘巨大的船,船的底部落下了很多神秘的發(fā)光體,在發(fā)光體里好像有一些未知的外來(lái)生物。在電影的結(jié)尾,制作方告訴我們,這部電影完全是由AIGC來(lái)生成的。站在今天的節(jié)點(diǎn)上,這樣的事情已經(jīng)不是什么科幻的想象了,而是AIGC技術(shù)將在不遠(yuǎn)的將來(lái)就能實(shí)現(xiàn)的了。
70多年前的1950年,圖靈測(cè)試這一思想實(shí)驗(yàn)的提出,預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性。后面的若干年,人工智能發(fā)展幾經(jīng)起落,終于在最近十年,隨著深度學(xué)習(xí)的興起,以及語(yǔ)言、圖像、視頻等生成式建模技術(shù)爆發(fā)式的發(fā)展,我們迎來(lái)了生成式人工智能新時(shí)代。
在生成式人工智能的時(shí)代里,人工智能生成內(nèi)容自然是非常受關(guān)注的一大類應(yīng)用,所謂AIGC,就是用人工智能來(lái)生產(chǎn)內(nèi)容。AIGC正在顛覆現(xiàn)有的內(nèi)容生產(chǎn)方式,以十分之一的成本,以百倍千倍的速度生成AI原創(chuàng)的內(nèi)容,它不僅會(huì)提升內(nèi)容生產(chǎn)的效率,也會(huì)創(chuàng)造出獨(dú)特的價(jià)值和獨(dú)立視角的內(nèi)容,從而帶來(lái)內(nèi)容生產(chǎn)、內(nèi)容消費(fèi)模式的突破。
AIGC技術(shù)發(fā)展的主角是生成式大模型,預(yù)訓(xùn)練模型的橫空出世,標(biāo)志著基于大規(guī)模數(shù)據(jù)在大參數(shù)量模型的訓(xùn)練能為AI帶來(lái)顛覆式效果的提升。此后,各類大模型在語(yǔ)言理解、生成、跨模態(tài)理解與生成、生物計(jì)算等領(lǐng)域不斷刷新相應(yīng)領(lǐng)域的水平。最近,以O(shè)penAI的GPT系列,百度文心大模型系列等為代表的生成式大模型將AIGC技術(shù)推向了新的高度。
文心一格是依托于百度飛槳文心大模型技術(shù)創(chuàng)新推出的AI繪畫產(chǎn)品,文心一格的含義是一語(yǔ)成畫,別具一格。用戶非常廣泛,既能為專業(yè)的視覺(jué)內(nèi)容創(chuàng)作者提供豐富的創(chuàng)作靈感,輔助其進(jìn)行藝術(shù)創(chuàng)作,也能為文字內(nèi)容的創(chuàng)作者提供高效、高質(zhì)量的配圖,還為廣大大眾用戶提供零門檻的創(chuàng)作平臺(tái),讓所有人能把自己的想法變成畫作,實(shí)現(xiàn)自己獨(dú)一無(wú)二的作品。
在文心一格的背后是百度自研的一套基于知識(shí)與大模型的文生圖系統(tǒng)。首先,基于知識(shí)的智能Prompt工程,Prompt工程能很好地理解用戶的需求,并構(gòu)建出適合于AI繪畫的輸出表示?;谳敵觯缒B(tài)大模型會(huì)生成圖像,圖像能滿足用戶的需求,又能兼具美感和實(shí)用性,平臺(tái)還可以為用戶提供非常豐富的圖像編輯能力,讓用戶在圖像基礎(chǔ)上進(jìn)行調(diào)整,達(dá)到滿意的狀態(tài)。在流程中,各個(gè)模塊都充分利用用戶反饋持續(xù)優(yōu)化迭代。
這套文生圖系統(tǒng)是基于昆侖芯、飛槳、文心大模型、百度知識(shí)圖譜構(gòu)建的,全棧技術(shù)自研,自主可控。
接下來(lái)用例子說(shuō)明基于知識(shí)的Prompt學(xué)習(xí),用戶用自然語(yǔ)言描述自己畫圖的需求,但自然語(yǔ)言描述往往因?yàn)槟:?、不確定性,跟實(shí)際上他想畫出來(lái)的圖像會(huì)有非常大的差異。另一方面,如果用戶想要畫出非常精美的圖,需要掌握一定的AI繪畫技巧,而技巧需要一定的學(xué)習(xí)成本,需要學(xué)如何描述畫面,如何指定風(fēng)格,補(bǔ)充修飾詞等等。
為此,文心一格提出了基于知識(shí)的Prompt學(xué)習(xí),能夠很好地理解用戶需求背后蘊(yùn)含的信息,對(duì)模糊地帶的內(nèi)容進(jìn)行自動(dòng)補(bǔ)全,并且完善Prompt,使得它能夠生成更高質(zhì)量的圖片。
文心一格的主界面首創(chuàng)了生成與編輯融合的交互方式,用戶可以一邊創(chuàng)作,一邊用編輯調(diào)整自己的圖片,來(lái)達(dá)到很滿意的狀態(tài)。例如可以涂抹編輯,把主角的衣服變成自己想要的樣子,也可以將兩張圖片疊加,生成一張獨(dú)一無(wú)二的寶石蟹。
在一格,用戶還可以輸入幾張圖片素材,就能快速訓(xùn)練出自定義的模型,產(chǎn)出畫面風(fēng)格一致,或者主體一致的一系列自己想要的圖片。
以上是文生圖技術(shù)和AI繪畫平臺(tái)文心一格,接下來(lái)說(shuō)說(shuō)視頻創(chuàng)作。
在視頻內(nèi)容創(chuàng)作時(shí),創(chuàng)作者往往會(huì)受限于自身經(jīng)歷、記憶力、創(chuàng)作工具的熟練程度等因素限制。但是在AI的幫助下,創(chuàng)作者指定相應(yīng)文章或主題,就能快速得到視頻,而且質(zhì)量還不錯(cuò),我們接下來(lái)看一個(gè)例子,輸入主題“上海與科技”,AI自動(dòng)生成出了什么樣的視頻。
在視頻內(nèi)容的創(chuàng)作中,視頻素材質(zhì)量和豐富程度決定了最終效果,如何獲取視頻素材,尤其是高質(zhì)量的視頻素材,主要有兩類方法:跨模態(tài)匹配、跨模態(tài)生成。
但無(wú)論是哪種方法,最核心的技術(shù)難題是如何實(shí)現(xiàn)文本、圖片、視頻片段等不同模態(tài)之間的語(yǔ)義級(jí)對(duì)齊。
團(tuán)隊(duì)在業(yè)界首次提出了基于統(tǒng)一建模的視文一體跨模態(tài)大模型,解決了這一業(yè)界難題。可以看到,多概念細(xì)粒度的精準(zhǔn)對(duì)齊已經(jīng)實(shí)現(xiàn)做到了,基于統(tǒng)一建模的跨模態(tài)大模型,還實(shí)現(xiàn)了直接生成高清、優(yōu)美、富有創(chuàng)意的原生視頻素材。
基于文心大模型,特別是統(tǒng)一建模的跨模態(tài)大模型,構(gòu)造了一整套智能視頻創(chuàng)作系統(tǒng)。
具體來(lái)說(shuō),創(chuàng)新整合了包括語(yǔ)言、視覺(jué)、語(yǔ)音、跨模態(tài)等一系列技術(shù)能力,參考了人在視頻創(chuàng)作過(guò)程中的策、采、編,實(shí)現(xiàn)了文案理解與生成、素材分析與處理、素材擴(kuò)充與編排等步驟,自動(dòng)生成視頻,在這套系統(tǒng)基礎(chǔ)上,百度實(shí)現(xiàn)了輔助的視頻創(chuàng)作系統(tǒng)。
以上介紹的AIGC技術(shù)百度已經(jīng)用在了眾多領(lǐng)域,包括自媒體創(chuàng)作、游戲原畫、廣告營(yíng)銷、工業(yè)設(shè)計(jì)等。AIGC技術(shù)已經(jīng)帶來(lái)了哪些對(duì)視覺(jué)內(nèi)容創(chuàng)作的新變化呢?
第一,AIGC技術(shù)提升了內(nèi)容創(chuàng)作的效率,無(wú)論是海報(bào)制作還是短視頻制作,在整體成本降低和制作時(shí)間降低上非常顯著。
第二,AIGC能夠助力人們把自己天馬行空的想象付諸于實(shí)現(xiàn),創(chuàng)造出屬于自己的獨(dú)特作品,同時(shí)能夠?yàn)橛脩籼峁┴S富多彩超出想象的新創(chuàng)意。
第三,AIGC能夠降低創(chuàng)作成本,讓更多人更容易地加入到視覺(jué)內(nèi)容創(chuàng)作中來(lái),如果需要寫實(shí)的海報(bào),可以不用找專人,不用布景拍攝就能實(shí)現(xiàn)。小孩子天馬行空的想象也可以快速變成繪本。非設(shè)計(jì)背景的人如果工作中需要設(shè)計(jì)圖樣,也可以借助AI實(shí)現(xiàn),短視頻創(chuàng)作者可以更加聚焦精力在深度洞察和特色打造上,因?yàn)锳I可以在全流程幫助他。
未來(lái),大模型與知識(shí)技術(shù)將推動(dòng)AIGC效果有質(zhì)的提升。在算法層面,大模型將進(jìn)一步統(tǒng)一更多模態(tài)、任務(wù)、場(chǎng)景;在算力層面,將硬件利用率進(jìn)一步提高,并且形成更高性能的能力;在數(shù)據(jù)層面,將從之前更多強(qiáng)調(diào)規(guī)模到更強(qiáng)調(diào)質(zhì)量,以及與模型打造更好的迭代閉環(huán);在知識(shí)層面,更強(qiáng)調(diào)精準(zhǔn)、更多形態(tài),AI推理和決策中發(fā)揮更重要的作用。
這些技術(shù)的持續(xù)提升,將使AIGC技術(shù)具有更強(qiáng)的語(yǔ)言交互界面,更好的自主可控性、可解釋性,生成更高維度的時(shí)空內(nèi)容。
把AI與人類創(chuàng)造力結(jié)合在一起,可以開拓內(nèi)容視覺(jué)創(chuàng)作非常廣闊的未來(lái)。期待以AI為筆,我們共同描繪更精彩的未來(lái)。
以上PPT中的所有畫面畫作都是用文心一格生成的,歡迎大家掃碼體驗(yàn),感謝大家的聆聽,歡迎多多交流,謝謝大家!
關(guān)鍵詞: