在中文問答語料最為豐富的社區(qū)知乎,有一個越來越重要的角色,它有一點那么不請自來,但是確實在意料之中。
(相關(guān)資料圖)
這個角色就是AI。
在日前舉辦的“2023知乎發(fā)現(xiàn)大會”現(xiàn)場,知乎創(chuàng)始人、董事長兼CEO周源與知乎合伙人、CTO李大海,共同宣布了知乎與面壁智能在AI大模型上的最新合作與應(yīng)用,正式發(fā)布了“知海圖AI”中文大模型。
這是知乎首個大語言模型,應(yīng)用至知乎熱榜。它以“熱榜摘要”的形式呈現(xiàn),利用其語言理解能力,對知乎熱榜上的問題回答進行抓取、整理和聚合,并把回答梗概展現(xiàn)給用戶,給大家直觀清晰的回答,目前已經(jīng)開啟內(nèi)測。
面壁智能聯(lián)合創(chuàng)始人、CTO曾國洋在大會演講中表示,經(jīng)過測試,在知乎熱榜的應(yīng)用場景下,知乎與面壁合作自研的大模型與GPT-4相比,達到了持平的效果。未來,“知海圖AI”的能力還將逐步應(yīng)用在對創(chuàng)作的賦能、對討論場的賦能和對信息獲取的賦能。
面壁智能聯(lián)合創(chuàng)始人、CTO曾國洋
知乎為何要做大模型?
ChatGPT一夜之間全球爆火,讓AIGC成為一種潮流,圍繞著人工智能的話題,再度成為大眾的討論的焦點。
從移動互聯(lián)網(wǎng)時代行至 AI 時代,知乎以問答形式為主,搭建了一個專業(yè)、多元、有價值的“討論場”。
之所以決心下場參與大模型領(lǐng)域,周源告訴鈦媒體APP,公司在做業(yè)務(wù)時,首先應(yīng)該思考自己的價值,能夠給用戶提供的價值,以及自己的定位是什么,在這個基礎(chǔ)上,再與商業(yè)社會產(chǎn)生一個交集。
知乎本身是一個場景,場景代表的是用戶需求。在周源看來,知乎最核心場景是“討論”:用戶通過“討論”的方式,去交換信息,分享知識、經(jīng)驗和見解。
討論也會形成一些目前用戶熟悉的功能。比如說,內(nèi)容熱度由討論而產(chǎn)生,最后聚集在某個地方,又有更多的用戶看到它。這其中,AI可以自動生成“熱榜摘要”的場景和功能,以提升用戶體驗。
事實上,早在十年前,知乎有一個產(chǎn)品功能是“回答總結(jié)”,類似于現(xiàn)在與面壁智能合作的“熱榜摘要”。當(dāng)時,知乎將此項功能開放給了所有用戶,用戶可以像維基百科那樣編輯,把大家所有的回答做一個總結(jié)。
但后來,周源發(fā)現(xiàn),這個事情太困難了。因為回答數(shù)量多了以后,人工編輯的成本非常高,而且實現(xiàn)的效果并不好。現(xiàn)在,有了AI的方式,當(dāng)用戶想要加入一個討論時,可以通過“熱榜摘要”迅速地了解某個事件的梗概,然后,再去閱讀所有的討論中,他認(rèn)為相對有價值的內(nèi)容。
找到自己想要的解答,這就意味著,可以收獲到知乎所倡導(dǎo)的“獲得感”,因為獲得感也是因人而異的。
周源認(rèn)為,在一個技術(shù)快速迭代的時代,反而更應(yīng)該關(guān)注人,關(guān)注那些獨特的個體,關(guān)注他們是否會因此而受益。
人才儲備是入局大模型另一個重要的入場券。李大海對鈦媒體APP說,大模型本身不是橫空出世,忽然蹦出來的,而是在這之前,有非常多技術(shù)累積,這個過程并沒有那么突兀。所以,知乎的工程師也可以迅速地去學(xué)習(xí)、消化、吸收,變成大模型領(lǐng)域的開發(fā)者、從業(yè)者。
知乎合伙人、CTO李大海
李大海認(rèn)為,在這方面,人類工程師都是非常聰明的。事實證明,知乎與面壁智能只花了一個多月的時間,就做出了非常多肉眼可見、很可喜的進展。也可以說,知乎在大模型上的人才儲備是足夠的。
知乎已經(jīng)有了一個完整的算法中臺來支撐整個公司的業(yè)務(wù),知乎也早已經(jīng)成為了一個技術(shù)驅(qū)動型的公司。并且,他們很早就提出了“智能社區(qū)”的概念,將AI應(yīng)用在了社區(qū)內(nèi)容的生產(chǎn)、流通、消費和治理等環(huán)節(jié)。
邀請AI加入“討論場”,在周源看來,AI時代的生產(chǎn)力要素,可以從上至下分為三層:應(yīng)用場景、專有數(shù)據(jù)、基礎(chǔ)模型。
在基礎(chǔ)模型層,以GPT為代表的大模型迭代速度非???,性能不斷地提升,同時,其成本也在不斷下降。今天中國的AI生態(tài)才剛剛起步,對于中國的公司來說,可以先在應(yīng)用層和數(shù)據(jù)層兩方面夯實獨特的優(yōu)勢,同時,也要在基礎(chǔ)模型層去成為新生產(chǎn)力的開發(fā)者。
知乎基于問答的討論場是天然的應(yīng)用層場景,并且每天都有不斷新增的優(yōu)質(zhì)內(nèi)容,用戶和用戶之間,用戶和內(nèi)容之間進行的互動,構(gòu)成了獨一無二的專有數(shù)據(jù)。
“知海圖AI”怎么煉成的?
以Chat-GPT為代表的大語言模型給世界帶來了驚喜,但落地至中文互聯(lián)網(wǎng),大家發(fā)現(xiàn),主流的大模型英文語言能力往往比中文語言能力更好、更快。
李大海對鈦媒體APP表示,這其中主要有兩個原因:第一,中文確實比英文要更復(fù)雜;第二,開放的英文語料相對于開放的中文語料來說質(zhì)量更高,內(nèi)容也更多。這也就意味著,開放的英文語料里面蘊含的知識更多,更容易被大模型學(xué)到。
這兩個技術(shù)問題是客觀存在的。中文的問題,中國的科技公司應(yīng)該更有能力去解決。知乎擁有整個中文互聯(lián)網(wǎng)最優(yōu)質(zhì)的討論和回答。
數(shù)據(jù)顯示,2022年第四季度月平均訂閱會員數(shù)達到1300萬,同比增長112.5%,2022年的平均MAU(月活用戶)達到1.01億。成立十年以來,知乎已經(jīng)積累了超過4400萬個問題和2.4億個回答。
之所以選擇與面壁智能合作,李大海坦言,除了公司開發(fā)模型強大之外,也看中了其背后,清華大學(xué)計算機自然語言處理和社會人文計算實驗室在中文大語言模型領(lǐng)域有很深的積累。
從2020年開始,面壁智能就發(fā)布了全中文互聯(lián)網(wǎng)首個中文大語言模型CPM-1,在后續(xù)的三年,又陸續(xù)發(fā)布了CPM-2,CPM-3和CPM-Ant等多個開源的模型,這些模型都可以在網(wǎng)上免費獲得。
它們最新的大語言模型CPM-Bee,是李大海他們發(fā)現(xiàn)的最好的中文大語言模型之一。知乎還投資了面壁智能,很快,雙方團隊展開了大語言模型的深度共建的過程。
在研發(fā)業(yè)務(wù)中,雙方團隊利用了CPM大模型強大的內(nèi)容理解能力,對知乎熱榜問題中所有的回答進行要素抽取、觀點梳理和內(nèi)容聚合,最終在問題頁面下,將知友們的所有回答的梗概呈現(xiàn)給用戶,讓大家能更快、更全面地了解熱門討論的熱點與焦點,更好的參與到討論中來。
不過,在開展工作的過程中,團隊也面臨一些困難。比如說,作為一個非常開放的社區(qū),知乎用戶的創(chuàng)造力、表達力很強,很多有趣的、專業(yè)的回答,即便是知乎資深的運營人員,也要花很長時間才能準(zhǔn)確無誤地梳理出核心觀點。
而在調(diào)教大模型的過程中,在熱榜問題下,需要把所有知友的回答觀點抽取聚合。在這個具體場景里會涉及到難點是,一方面,對和問題相關(guān)的知友觀點的抽取是否準(zhǔn)確,另一方面,這些觀點抽取以后聚合是否合適。而且,在知乎的答主的產(chǎn)出的內(nèi)容千奇百怪,甚至有時候會有其他的觀點呈現(xiàn),而這個觀點跟提問沒有關(guān)系。
這些因素都訓(xùn)練整個大模型產(chǎn)生了很大的挑戰(zhàn)。曾國洋對鈦媒體APP說,團隊做了很多的工作,花了不少的時間來調(diào)教大模型,讓它在算法工程師的陪伴下,閱讀了大量知乎中的優(yōu)秀回答,最終才取得了不錯的成果。
最近一個令他們欣喜的成績是,在知乎特定的場景內(nèi),開發(fā)者選取了41個熱門的話題,將“知海圖AI”與OpenAI最新的GPT-4進行了一個橫向?qū)Ρ?,結(jié)果發(fā)現(xiàn),目前知乎的大模型已經(jīng)達到了和GPT-4持平的效果。
以AI輔助創(chuàng)作
在AIGC蓬勃發(fā)展的趨勢之下,一個值得思考的問題在于,作為一個以人的問答交互為核心的社區(qū),知乎在引入AI之后,是否會對原來的真人創(chuàng)作內(nèi)容以及創(chuàng)作者形成沖擊?而此前知乎上“抖機靈”式特色回答又是否會消失?
針對這一議題,周源對鈦媒體APP表示,社區(qū)一定是人為本,知乎本質(zhì)是人與人之間的討論和分享,它的起點是人,它的終點也是人。但是AI不是人,而是一個環(huán)節(jié),AI服務(wù)的對象主體是人,人是知乎社區(qū)里面的每一份子。
AI可以幫助社區(qū)中的創(chuàng)作者,提升他們的創(chuàng)造力,提升效率和質(zhì)量,從而能夠讓更多的社區(qū)用戶能夠獲得幫助,開闊眼界,產(chǎn)生共鳴,而這恰恰也是知乎提倡的“獲得感”的內(nèi)容價值觀。
這是知乎一個非常重要的原則,他們也正按照這樣的方式,在考慮產(chǎn)品迭代優(yōu)化上,始終考慮最后的價值點落在哪里。只要清楚地堅持這個原因,AI創(chuàng)作與人類創(chuàng)作,并不會產(chǎn)生真正的沖突。
在周源看來,雖然不是所有人都有需求去寫一篇圖文并茂的文章,但有這個需求的人,一定會希望以更高效的方式,去產(chǎn)生出更好的內(nèi)容。某種意義上來說,知乎的專業(yè)用戶聚集度較高,他們會研究怎么用AI生成的圖片,或者用大模型生成一段文字。
所以,知乎在今年初還上線了AI輔助創(chuàng)作的功能,其核心是想表達,用這樣的工具創(chuàng)作,是沒有問題的,因為這是一個大趨勢。
在此次大會發(fā)布的“海鹽計劃5.0”中,知乎錨定職人創(chuàng)作者群體提升權(quán)重,最高可獲得5倍流量及漲粉加權(quán),并配合多渠道助力職人創(chuàng)作者變現(xiàn)。
作為有專業(yè)的教育背景以及專業(yè)的職業(yè)身份,精通某項領(lǐng)域某種技能的群體,目前我國潛在的職人群體超過3億,這些職人群體與知乎的用戶群體高度吻合,他們很多都是活躍在一二線城市的職業(yè)工作者,在工作領(lǐng)域和興趣愛好方面有著豐富的經(jīng)驗。
周源相信,每個人都有專業(yè)的一面。因為非常堅定定位,才能明確地把價值做深。從去年增長快速的會員業(yè)務(wù)(會員其實是從社區(qū)平臺上再長出來比較深入的業(yè)務(wù)),以及圍繞職業(yè)人群“職人”開展的職業(yè)教育業(yè)務(wù),都是圍繞社區(qū)把內(nèi)容鏈做得更深、做得更堅實的過程。
社區(qū)以人為先,這是知乎在12年前出發(fā)點,現(xiàn)在,知乎有機會在技術(shù)助力之下,把這件事情做得更好。從去年開始,知乎開始深耕“生態(tài)第一”戰(zhàn)略后,社區(qū)的數(shù)據(jù)增長,包括用戶的留存、市場拓展,創(chuàng)作者數(shù)量和品類,這都來自于知乎非常清楚地堅守了自己的定位:專業(yè)討論。
至于AI會如何識別文本是一本正經(jīng)的專業(yè)討論,還是屬于抖機靈式回答,曾國洋對鈦媒體APP說,“大家不要太小看大模型的能力。人能知道它在抖機靈,大模型也知道?!?/p>
關(guān)鍵詞: