當前位置：科技 >

謝邀，這是知乎中文大模型給你的答案

文章來源：鈦媒體APP　發(fā)布時間： 2023-04-18 19:13:22　責任編輯：cfenews.com

+|-

在中文問答語料最為豐富的社區(qū)知乎，有一個越來越重要的角色，它有一點那么不請自來，但是確實在意料之中。

(相關(guān)資料圖)

這個角色就是AI。

在日前舉辦的“2023知乎發(fā)現(xiàn)大會”現(xiàn)場，知乎創(chuàng)始人、董事長兼CEO周源與知乎合伙人、CTO李大海，共同宣布了知乎與面壁智能在AI大模型上的最新合作與應用，正式發(fā)布了“知海圖AI”中文大模型。

這是知乎首個大語言模型，應用至知乎熱榜。它以“熱榜摘要”的形式呈現(xiàn)，利用其語言理解能力，對知乎熱榜上的問題回答進行抓取、整理和聚合，并把回答梗概展現(xiàn)給用戶，給大家直觀清晰的回答，目前已經(jīng)開啟內(nèi)測。

面壁智能聯(lián)合創(chuàng)始人、CTO曾國洋在大會演講中表示，經(jīng)過測試，在知乎熱榜的應用場景下，知乎與面壁合作自研的大模型與GPT-4相比，達到了持平的效果。未來，“知海圖AI”的能力還將逐步應用在對創(chuàng)作的賦能、對討論場的賦能和對信息獲取的賦能。

面壁智能聯(lián)合創(chuàng)始人、CTO曾國洋

知乎為何要做大模型？

ChatGPT一夜之間全球爆火，讓AIGC成為一種潮流，圍繞著人工智能的話題，再度成為大眾的討論的焦點。

從移動互聯(lián)網(wǎng)時代行至 AI 時代，知乎以問答形式為主，搭建了一個專業(yè)、多元、有價值的“討論場”。

之所以決心下場參與大模型領域，周源告訴鈦媒體APP，公司在做業(yè)務時，首先應該思考自己的價值，能夠給用戶提供的價值，以及自己的定位是什么，在這個基礎上，再與商業(yè)社會產(chǎn)生一個交集。

知乎本身是一個場景，場景代表的是用戶需求。在周源看來，知乎最核心場景是“討論”：用戶通過“討論”的方式，去交換信息，分享知識、經(jīng)驗和見解。

討論也會形成一些目前用戶熟悉的功能。比如說，內(nèi)容熱度由討論而產(chǎn)生，最后聚集在某個地方，又有更多的用戶看到它。這其中，AI可以自動生成“熱榜摘要”的場景和功能，以提升用戶體驗。

事實上，早在十年前，知乎有一個產(chǎn)品功能是“回答總結(jié)”，類似于現(xiàn)在與面壁智能合作的“熱榜摘要”。當時，知乎將此項功能開放給了所有用戶，用戶可以像維基百科那樣編輯，把大家所有的回答做一個總結(jié)。

但后來，周源發(fā)現(xiàn)，這個事情太困難了。因為回答數(shù)量多了以后，人工編輯的成本非常高，而且實現(xiàn)的效果并不好。現(xiàn)在，有了AI的方式，當用戶想要加入一個討論時，可以通過“熱榜摘要”迅速地了解某個事件的梗概，然后，再去閱讀所有的討論中，他認為相對有價值的內(nèi)容。

找到自己想要的解答，這就意味著，可以收獲到知乎所倡導的“獲得感”，因為獲得感也是因人而異的。

周源認為，在一個技術(shù)快速迭代的時代，反而更應該關(guān)注人，關(guān)注那些獨特的個體，關(guān)注他們是否會因此而受益。

人才儲備是入局大模型另一個重要的入場券。李大海對鈦媒體APP說，大模型本身不是橫空出世，忽然蹦出來的，而是在這之前，有非常多技術(shù)累積，這個過程并沒有那么突兀。所以，知乎的工程師也可以迅速地去學習、消化、吸收，變成大模型領域的開發(fā)者、從業(yè)者。

知乎合伙人、CTO李大海

李大海認為，在這方面，人類工程師都是非常聰明的。事實證明，知乎與面壁智能只花了一個多月的時間，就做出了非常多肉眼可見、很可喜的進展。也可以說，知乎在大模型上的人才儲備是足夠的。

知乎已經(jīng)有了一個完整的算法中臺來支撐整個公司的業(yè)務，知乎也早已經(jīng)成為了一個技術(shù)驅(qū)動型的公司。并且，他們很早就提出了“智能社區(qū)”的概念，將AI應用在了社區(qū)內(nèi)容的生產(chǎn)、流通、消費和治理等環(huán)節(jié)。

邀請AI加入“討論場”，在周源看來，AI時代的生產(chǎn)力要素，可以從上至下分為三層：應用場景、專有數(shù)據(jù)、基礎模型。

在基礎模型層，以GPT為代表的大模型迭代速度非?？?，性能不斷地提升，同時，其成本也在不斷下降。今天中國的AI生態(tài)才剛剛起步，對于中國的公司來說，可以先在應用層和數(shù)據(jù)層兩方面夯實獨特的優(yōu)勢，同時，也要在基礎模型層去成為新生產(chǎn)力的開發(fā)者。

知乎基于問答的討論場是天然的應用層場景，并且每天都有不斷新增的優(yōu)質(zhì)內(nèi)容，用戶和用戶之間，用戶和內(nèi)容之間進行的互動，構(gòu)成了獨一無二的專有數(shù)據(jù)。

“知海圖AI”怎么煉成的？

以Chat-GPT為代表的大語言模型給世界帶來了驚喜，但落地至中文互聯(lián)網(wǎng)，大家發(fā)現(xiàn)，主流的大模型英文語言能力往往比中文語言能力更好、更快。

李大海對鈦媒體APP表示，這其中主要有兩個原因：第一，中文確實比英文要更復雜；第二，開放的英文語料相對于開放的中文語料來說質(zhì)量更高，內(nèi)容也更多。這也就意味著，開放的英文語料里面蘊含的知識更多，更容易被大模型學到。

這兩個技術(shù)問題是客觀存在的。中文的問題，中國的科技公司應該更有能力去解決。知乎擁有整個中文互聯(lián)網(wǎng)最優(yōu)質(zhì)的討論和回答。

數(shù)據(jù)顯示，2022年第四季度月平均訂閱會員數(shù)達到1300萬，同比增長112.5%，2022年的平均MAU（月活用戶）達到1.01億。成立十年以來，知乎已經(jīng)積累了超過4400萬個問題和2.4億個回答。

之所以選擇與面壁智能合作，李大海坦言，除了公司開發(fā)模型強大之外，也看中了其背后，清華大學計算機自然語言處理和社會人文計算實驗室在中文大語言模型領域有很深的積累。

從2020年開始，面壁智能就發(fā)布了全中文互聯(lián)網(wǎng)首個中文大語言模型CPM-1，在后續(xù)的三年，又陸續(xù)發(fā)布了CPM-2，CPM-3和CPM-Ant等多個開源的模型，這些模型都可以在網(wǎng)上免費獲得。

它們最新的大語言模型CPM-Bee，是李大海他們發(fā)現(xiàn)的最好的中文大語言模型之一。知乎還投資了面壁智能，很快，雙方團隊展開了大語言模型的深度共建的過程。

在研發(fā)業(yè)務中，雙方團隊利用了CPM大模型強大的內(nèi)容理解能力，對知乎熱榜問題中所有的回答進行要素抽取、觀點梳理和內(nèi)容聚合，最終在問題頁面下，將知友們的所有回答的梗概呈現(xiàn)給用戶，讓大家能更快、更全面地了解熱門討論的熱點與焦點，更好的參與到討論中來。

不過，在開展工作的過程中，團隊也面臨一些困難。比如說，作為一個非常開放的社區(qū)，知乎用戶的創(chuàng)造力、表達力很強，很多有趣的、專業(yè)的回答，即便是知乎資深的運營人員，也要花很長時間才能準確無誤地梳理出核心觀點。

而在調(diào)教大模型的過程中，在熱榜問題下，需要把所有知友的回答觀點抽取聚合。在這個具體場景里會涉及到難點是，一方面，對和問題相關(guān)的知友觀點的抽取是否準確，另一方面，這些觀點抽取以后聚合是否合適。而且，在知乎的答主的產(chǎn)出的內(nèi)容千奇百怪，甚至有時候會有其他的觀點呈現(xiàn)，而這個觀點跟提問沒有關(guān)系。

這些因素都訓練整個大模型產(chǎn)生了很大的挑戰(zhàn)。曾國洋對鈦媒體APP說，團隊做了很多的工作，花了不少的時間來調(diào)教大模型，讓它在算法工程師的陪伴下，閱讀了大量知乎中的優(yōu)秀回答，最終才取得了不錯的成果。

最近一個令他們欣喜的成績是，在知乎特定的場景內(nèi)，開發(fā)者選取了41個熱門的話題，將“知海圖AI”與OpenAI最新的GPT-4進行了一個橫向?qū)Ρ?，結(jié)果發(fā)現(xiàn)，目前知乎的大模型已經(jīng)達到了和GPT-4持平的效果。

以AI輔助創(chuàng)作

在AIGC蓬勃發(fā)展的趨勢之下，一個值得思考的問題在于，作為一個以人的問答交互為核心的社區(qū)，知乎在引入AI之后，是否會對原來的真人創(chuàng)作內(nèi)容以及創(chuàng)作者形成沖擊？而此前知乎上“抖機靈”式特色回答又是否會消失？

針對這一議題，周源對鈦媒體APP表示，社區(qū)一定是人為本，知乎本質(zhì)是人與人之間的討論和分享，它的起點是人，它的終點也是人。但是AI不是人，而是一個環(huán)節(jié)，AI服務的對象主體是人，人是知乎社區(qū)里面的每一份子。

AI可以幫助社區(qū)中的創(chuàng)作者，提升他們的創(chuàng)造力，提升效率和質(zhì)量，從而能夠讓更多的社區(qū)用戶能夠獲得幫助，開闊眼界，產(chǎn)生共鳴，而這恰恰也是知乎提倡的“獲得感”的內(nèi)容價值觀。

這是知乎一個非常重要的原則，他們也正按照這樣的方式，在考慮產(chǎn)品迭代優(yōu)化上，始終考慮最后的價值點落在哪里。只要清楚地堅持這個原因，AI創(chuàng)作與人類創(chuàng)作，并不會產(chǎn)生真正的沖突。

在周源看來，雖然不是所有人都有需求去寫一篇圖文并茂的文章，但有這個需求的人，一定會希望以更高效的方式，去產(chǎn)生出更好的內(nèi)容。某種意義上來說，知乎的專業(yè)用戶聚集度較高，他們會研究怎么用AI生成的圖片，或者用大模型生成一段文字。

所以，知乎在今年初還上線了AI輔助創(chuàng)作的功能，其核心是想表達，用這樣的工具創(chuàng)作，是沒有問題的，因為這是一個大趨勢。

在此次大會發(fā)布的“海鹽計劃5.0”中，知乎錨定職人創(chuàng)作者群體提升權(quán)重，最高可獲得5倍流量及漲粉加權(quán)，并配合多渠道助力職人創(chuàng)作者變現(xiàn)。

作為有專業(yè)的教育背景以及專業(yè)的職業(yè)身份，精通某項領域某種技能的群體，目前我國潛在的職人群體超過3億，這些職人群體與知乎的用戶群體高度吻合，他們很多都是活躍在一二線城市的職業(yè)工作者，在工作領域和興趣愛好方面有著豐富的經(jīng)驗。

周源相信，每個人都有專業(yè)的一面。因為非常堅定定位，才能明確地把價值做深。從去年增長快速的會員業(yè)務（會員其實是從社區(qū)平臺上再長出來比較深入的業(yè)務），以及圍繞職業(yè)人群“職人”開展的職業(yè)教育業(yè)務，都是圍繞社區(qū)把內(nèi)容鏈做得更深、做得更堅實的過程。

社區(qū)以人為先，這是知乎在12年前出發(fā)點，現(xiàn)在，知乎有機會在技術(shù)助力之下，把這件事情做得更好。從去年開始，知乎開始深耕“生態(tài)第一”戰(zhàn)略后，社區(qū)的數(shù)據(jù)增長，包括用戶的留存、市場拓展，創(chuàng)作者數(shù)量和品類，這都來自于知乎非常清楚地堅守了自己的定位：專業(yè)討論。

至于AI會如何識別文本是一本正經(jīng)的專業(yè)討論，還是屬于抖機靈式回答，曾國洋對鈦媒體APP說，“大家不要太小看大模型的能力。人能知道它在抖機靈，大模型也知道?！?/p>

關(guān)鍵詞：

更多資訊>>