財聯(lián)社4月18日訊(記者 崔銘) 昨日,昆侖萬維(300418.SZ)正式發(fā)布大語言模型「天工」3.5,同時宣布即日起啟動邀請測試。財聯(lián)社記者第一時間對其進(jìn)行了測評。
「天工」3.5由昆侖萬維與奇點(diǎn)智源聯(lián)合研發(fā),昆侖萬維方面稱,其為第一個真正實現(xiàn)智能涌現(xiàn)的國產(chǎn)大語言模型,已“非常接近OpenAI ChatGPT的智能水平”,可滿足文案創(chuàng)作、知識問答、代碼編程、邏輯推演、數(shù)理推算等多元化需求。
(資料圖)
那么,該產(chǎn)品實際表現(xiàn)如何?讓我們一探究竟。
在開始測試前,記者先請「天工」3.5做了個自我介紹。
考慮到在此之前,業(yè)內(nèi)已有多家企業(yè)推出大模型,記者也順勢問了它與其他大模型相比有什么優(yōu)點(diǎn)?
「天工」3.5回答其優(yōu)點(diǎn)在于靈活、高效、智能、安全和環(huán)保,并表示自己是一個“非常有用和可靠的工具”。
初步了解之后,記者接下來分別從文本寫作、語義理解、邏輯推理、數(shù)學(xué)計算、撰寫代碼這幾個方面,實測「天工」3.5的各項能力。
首先,我們拋出了一個比較常規(guī)的寫作要求:如果續(xù)寫《西游記》故事,可以有哪些角度?
可以看到,「天工」3.5給出了幾個寫作方向,語言組織能力較為通順,也較為符合邏輯。
隨后,記者讓其以“月光”為主題寫一首有平仄且押韻的七言律詩,「天工」3.5在幾秒鐘內(nèi)便完成了。
有趣的是,記者也讓ChatGPT(3.5版本)寫了一首,發(fā)現(xiàn)兩首詩竟有不少重疊的部分。
工具總歸是要落到實處,記者讓其寫一條MMORPG游戲廣告文案,要求要有梗有轉(zhuǎn)折?!柑旃ぁ?.5迅速給出了答案,內(nèi)容整體風(fēng)格符合該類游戲特點(diǎn),但轉(zhuǎn)折部分稍顯生硬。
記者又提出讓它撰寫電商運(yùn)營崗位的招聘JD(職位描述),「天工」3.5給出了非常詳細(xì)的答復(fù),涵蓋職位名稱、職位描述、任職要求、薪資待遇,甚至最后還附上了公司介紹和投遞郵箱。不僅格式工整,內(nèi)容也較為合理。
語義理解方面,「天工」3.5能準(zhǔn)確說出成語釋義。
也懂一點(diǎn)上海話。
記者決定加大難度,問一些“陷阱題”,看看「天工」3.5能否從容應(yīng)對。
先來一個腦筋急轉(zhuǎn)彎,提問:小明的爸爸有三個兒子,大兒子叫大毛,二兒子叫二毛,三兒子叫什么名字?
「天工」3.5一次就答對了。
同樣的問題,記者去問ChatGPT(3.5版本),雖也回答正確,但多了一句靈魂拷問:所以小明的名字是什么。
再來一道燈謎題,提問:說它是頭牛,不會拉犁頭,說它力氣小,背著屋子走。(打一個動物)
「天工」3.5又一次答對了。
而ChatGPT(3.5版本)并沒有答對。
面對“蒸包子”問題,「天工」3.5也回答的頭頭是道,頗為“理性”。
ChatGPT(3.5版本)則給出了略微不同的回答。
接著,記者希望能考一下它的數(shù)學(xué)能力。
最經(jīng)典的“雞兔同籠”問題:若干只雞兔同在一個籠子里,已知籠子里有9個頭,有30只腳,請問籠中各有多少只雞和兔?
這次「天工」3.5列出了正確的方程式,卻得出了錯誤的答案。
在被指出這一問題后,「天工」3.5 “虛心認(rèn)錯”并重新計算了一遍,但還是沒有得出正確的答案。
同樣的題目,我們又問了一遍ChatGPT(3.5版本),依然是列出了正確的方程式,但在運(yùn)算過程中出錯,最后也沒有回答正確。
記者又問了一道奧數(shù)題:已知父親今年32歲,兒子今年5歲,請問幾年后父親的年齡正好是兒子的年齡的4倍?
這次「天工」3.5沒有答出。
同樣的問題,ChatGPT(3.5版本)算出了正確答案。
記者還嘗試使用「天工」3.5寫代碼,提問:用Scala實現(xiàn)并查集,在得到回答后,又再次提問:用Java再寫一遍。
隨后記者拿給程序員朋友檢查,對方稱結(jié)果是對的,還表示這一問題相對基礎(chǔ),寫代碼能力如何還要視具體需求,若能進(jìn)行多輪對話聯(lián)系上下文修改,會是個輔助業(yè)務(wù)的“好幫手”。
最后,以一個哲學(xué)問題結(jié)尾。
記者問了著名的“電車難題”,「天工」3.5指出這是一個倫理困境的問題,并給出了一個辯證的答復(fù)。
從記者體驗來看,「天工」3.5已經(jīng)能夠較為準(zhǔn)確、完整、流暢地回答問題,較少出現(xiàn)“答非所問”的情況。在跟ChatGPT(3.5版本)對比使用過程中,二者的文本寫作能力接近,在一些與數(shù)理相關(guān)問題上,還有優(yōu)化的空間。
昆侖萬維CEO方漢在昨日發(fā)布會上透露,「天工」3.5累計投入數(shù)億元,由數(shù)百人研發(fā)團(tuán)隊歷時3年時間打造。目前最高已能支持1萬字以上文本對話,實現(xiàn)20輪次以上用戶交互,在多類問答場景中都能實現(xiàn)較高的輸出水平及較強(qiáng)記憶能力。
據(jù)悉,未來昆侖萬維「天工」大模型在數(shù)理、邏輯推理等方面也將不斷迭代優(yōu)化,隨著產(chǎn)品技術(shù)成熟,將根據(jù)監(jiān)管和合規(guī)要求逐步啟動開源,「天工」4和「天工」5也在推進(jìn)計劃中。
(編輯 劉琰)
關(guān)鍵詞: