女人久久久,最近更新中文字幕在线,成人国内精品久久久久影院vr,中文字幕亚洲综合久久综合,久久精品秘?一区二区三区美小说

原創(chuàng)生活

國(guó)內(nèi) 商業(yè) 滾動(dòng)

基金 金融 股票

期貨金融

科技 行業(yè) 房產(chǎn)

銀行 公司 消費(fèi)

生活滾動(dòng)

保險(xiǎn) 海外 觀察

財(cái)經(jīng) 生活 期貨

當(dāng)前位置:科技 >

創(chuàng)造還是毀滅,AI不可預(yù)測(cè)能力的涌現(xiàn),會(huì)是人類的終結(jié)嗎?

文章來源:鈦媒體APP  發(fā)布時(shí)間: 2023-04-26 17:08:27  責(zé)任編輯:cfenews.com
+|-

大型語言模型(Large Language Models,LLMs)的設(shè)計(jì)初衷是接受大量語言文本的輸入,并理解、總結(jié)、生成以及預(yù)測(cè)出新的內(nèi)容。計(jì)算機(jī)科學(xué)家們?cè)局皇窍胪ㄟ^擴(kuò)大數(shù)據(jù)規(guī)模來提高這些模型在已知任務(wù)上的性能。然而,像ChatGPT這樣的大型語言模型卻在逐步超出人類的預(yù)期,可以自主完成越來越多新的、難以預(yù)測(cè)的任務(wù)。

為了明確LLMs目前所具備的能力,來自谷歌研究院、斯坦福大學(xué)等研究機(jī)構(gòu)的技術(shù)人員開發(fā)并選定了204項(xiàng)任務(wù),并用這些不同的任務(wù)來辨認(rèn)LLMs的已有能力。這其中的一項(xiàng)任務(wù)就是根據(jù)人類常用的表情符號(hào)來推測(cè)電影名稱。


(相關(guān)資料圖)

在測(cè)試中研究人員發(fā)現(xiàn):不同復(fù)雜程度的LLMs給出的答案并不相同——簡(jiǎn)單LLMs的回答也十分簡(jiǎn)陋:“電影是一個(gè)男人,他也是一個(gè)男人,還是一個(gè)男人”;中等復(fù)雜模型的回答會(huì)更接近答案一些,“答案是《表情包電影》”;而最復(fù)雜的模型則一猜就中,直接猜出電影為《海底總動(dòng)員》。

猜猜看,這些表情符號(hào)描述的是什么電影?

通過表情包猜測(cè)電影名稱只是LLMs所具備能力的冰山一角。最近研究表明,LLMs具有數(shù)百種“涌現(xiàn)”能力,能夠完成很多小模型無法完成的任務(wù),其中有一些與文本分析關(guān)系并不大——這些任務(wù)包括進(jìn)行乘法運(yùn)算、生成可執(zhí)行的計(jì)算機(jī)代碼以及前面提到的根據(jù)表情符號(hào)猜中電影名稱。

新的分析表明,在一些任務(wù)和模型中,存在一個(gè)關(guān)于模型復(fù)雜度的閾值,超過該閾值,模型的功能將會(huì)急劇上升;但隨著復(fù)雜度的增加,一些模型的回答可能會(huì)出現(xiàn)偏差和不準(zhǔn)確性。而這,和生物學(xué)中的一個(gè)現(xiàn)象十分相似。

大型AI模型中“涌現(xiàn)”的出現(xiàn)

當(dāng)一些基本的小型物質(zhì)聚合在一起時(shí),往往會(huì)出現(xiàn)一些驚人的變化。例如,由原子構(gòu)成的物質(zhì)形成了生命細(xì)胞,水分子聚集形成波浪,細(xì)胞使得肌肉運(yùn)動(dòng)和心臟跳動(dòng),這些自組織、集體的行為被科學(xué)家們稱之為“涌現(xiàn)”。涌現(xiàn)出現(xiàn)在涉及大量個(gè)體的系統(tǒng)中,而現(xiàn)在,隨著LLMs規(guī)模的不斷擴(kuò)大,人們也開始發(fā)現(xiàn)并記錄到了LLMs中出現(xiàn)的涌現(xiàn)行為。

近幾年出現(xiàn)的GPT-3等LLMs具有上千億的參數(shù),通過這些模型,用戶可以實(shí)現(xiàn)一些涌現(xiàn)行為:比如ChatGPT-3可以在沒有任何特定訓(xùn)練數(shù)據(jù)的情況下解決零樣本或極少樣本問題,就像前面提到的根據(jù)表情符號(hào)猜電影名稱。這類涌現(xiàn)行為表明,LLMs可以在零樣本或者少樣本學(xué)習(xí)的情況下解決以前從未或極少見過的問題,這是以往的模型所不具備的能力。

那么,為什么LLMs會(huì)出現(xiàn)涌現(xiàn)行為?其背后的機(jī)制是怎樣的?為了更好地理解涌現(xiàn)行為的機(jī)制,一批研究人員正在對(duì)其做追蹤記錄,以期開發(fā)出更加智能的自然語言模型。

“涌現(xiàn)行為”背后的可能機(jī)制

在ChatGPT-3問世引發(fā)大規(guī)模關(guān)注之前,Ethan Dyer等研究人員就已在2020年預(yù)測(cè)LLMs將產(chǎn)生變革性影響,并呼吁研究界提供多樣化的hard模式任務(wù),以探索LLMs能夠達(dá)到的極限。這一任務(wù)項(xiàng)目被稱為“超越模擬游戲基準(zhǔn)”(Beyond the Imitation Game Benchmark,BIG-bench),旨在測(cè)試大型LLMs是否能以人類的方式回答問題,并給出令人信服的答案。

Dyer提出了一個(gè)非常重要的研究問題:如何理解LLMs能力上的這些轉(zhuǎn)變,即如何理解LLMs出現(xiàn)涌現(xiàn)?

在研究中,Dyer發(fā)現(xiàn):在某些任務(wù)中,隨著復(fù)雜度的增加,模型的性能呈現(xiàn)可預(yù)測(cè)性地平穩(wěn)提高;而在其他任務(wù)中,增加參數(shù)數(shù)量并不會(huì)帶來任何性能上的改善;但在大約5%的任務(wù)中,研究人員發(fā)現(xiàn)了一個(gè)突破——在某些閾值范圍內(nèi),模型性能會(huì)顯著躍升,這個(gè)閾值因任務(wù)和模型而異。

研究人員很快意識(shí)到模型的復(fù)雜度可能并不是唯一驅(qū)動(dòng)涌現(xiàn)出現(xiàn)的因素。如果數(shù)據(jù)質(zhì)量足夠高,較小模型(或在較小的數(shù)據(jù)集上進(jìn)行訓(xùn)練的模型)也可以在訓(xùn)練中誘導(dǎo)產(chǎn)生一些意想不到的能力。此外,措辭方式同樣會(huì)影響模型在回答上的準(zhǔn)確性。例如,當(dāng)Dyer使用多項(xiàng)選擇題的方式提出根據(jù)表情符號(hào)猜電影名稱任務(wù)時(shí),模型的準(zhǔn)確率并不是突然躍升,而是會(huì)隨著問題的復(fù)雜度逐漸增加。

除了模型復(fù)雜程度、數(shù)據(jù)質(zhì)量以及訓(xùn)練措辭之外,另一個(gè)被稱為“思維鏈推理”的能力也在涌現(xiàn)的出現(xiàn)過程中扮演著重要的角色。

注:思維鏈推理能力,在NeurIPS會(huì)議上報(bào)告的一篇谷歌Brain的論文指出[1],一個(gè)有自我解釋要求的模型(一種稱為思維鏈推理的能力)能夠正確地解決一個(gè)數(shù)學(xué)應(yīng)用問題,而沒有這個(gè)要求的對(duì)照模型則無法做到。

Yi Tay近期的研究表明:思維鏈提示詞(chain-of-thought prompting)可以改變縮放曲線,從而改變涌現(xiàn)出現(xiàn)的位置。他們所做的一項(xiàng)研究發(fā)現(xiàn),使用思維鏈提示詞可誘發(fā)BIG-bench研究中沒有發(fā)現(xiàn)的涌現(xiàn)行為,這類提示詞會(huì)要求模型解釋其推理過程,這也是模型出現(xiàn)涌現(xiàn)行為的一個(gè)因素。

除此之外,也有其他的研究者對(duì)于涌現(xiàn)行為的出現(xiàn)給出了自己的答案。Ellie Pavlick最近的發(fā)現(xiàn)表明LLMs出現(xiàn)涌現(xiàn)行為至少有兩種原因:

一種是大模型確實(shí)可能像生物系統(tǒng)一樣自發(fā)地獲得新的能力。大模型相較于小模型,學(xué)到了新的、不同的信息,從而發(fā)生一些根本性的變化;

另一種可能性是盡管大型LLMs模型看似出現(xiàn)了涌現(xiàn)行為,但是實(shí)際上可能是一種內(nèi)部的、基于統(tǒng)計(jì)學(xué)的過程,這個(gè)過程只有通過思維鏈條式的推理才發(fā)揮作用。LLMs只是學(xué)習(xí)了一些啟發(fā)式方法,而這些方法對(duì)于參數(shù)較少或數(shù)據(jù)質(zhì)量較低的模型來說是無法實(shí)現(xiàn)的。

Pavlick表示,只有我們更近一步了解了LLMs的工作原理,才有可能確定是哪種可能性導(dǎo)致了涌現(xiàn)行為的出現(xiàn)。

涌現(xiàn):瑰麗且危險(xiǎn)

涌現(xiàn)行為會(huì)導(dǎo)致模型出現(xiàn)不可預(yù)測(cè)性,而這種不可預(yù)測(cè)性似乎會(huì)隨著模型規(guī)模的擴(kuò)大而增加。Deep Ganguli指出,在研究模型的規(guī)模對(duì)涌現(xiàn)行為的影響之前,我們并不知道這個(gè)模型會(huì)出現(xiàn)什么能力或限制,同時(shí)我們也很難提前知道這些模型是如何被使用或部署的,這將可能帶來一些潛在的風(fēng)險(xiǎn)。

Anthropic公司的研究團(tuán)隊(duì)在去年6月份發(fā)布的對(duì)LLMs的分析中,就對(duì)LLMs是否存在某些類型的種族歧視或社會(huì)偏見進(jìn)行了測(cè)試。這項(xiàng)研究的靈感源于一個(gè)與涌現(xiàn)行為相關(guān)的明顯悖論:模型規(guī)模的擴(kuò)大和性能的提高,可能會(huì)同時(shí)增加模型的不可預(yù)測(cè)行為,其中就包括一些可能出現(xiàn)的導(dǎo)致偏見或傷害的行為。

Ganguli表示,某些有害的行為會(huì)在一些模型中突然出現(xiàn)?!耙?guī)模越大的模型可能會(huì)變得更加有偏見?!辈贿^當(dāng)研究人員告訴模型不要依賴于刻板印象或社會(huì)偏見時(shí),模型能夠做到減少預(yù)測(cè)和反應(yīng)中的偏見,這表明,一些涌現(xiàn)特性可能會(huì)減少模型自身的偏見。在最近的一篇論文中,Anthropic團(tuán)隊(duì)提出了一種新的“道德自我糾正”模式,在這種模式下,根據(jù)用戶的反饋和提示,模型會(huì)表現(xiàn)得更加樂于助人、誠(chéng)實(shí)和無害,這將有望減少不可預(yù)測(cè)的涌現(xiàn)行為對(duì)人類可能帶來的潛在的傷害。

Ganguli指出,涌現(xiàn)既表現(xiàn)了驚人的潛力,也帶來了不可預(yù)測(cè)的風(fēng)險(xiǎn)——類似于ChatGPT-3這樣的大型LLMs模型的應(yīng)用正在不斷增加,只有更好的理解其相互作用以及涌現(xiàn)出現(xiàn)的原理,才能更好地發(fā)揮出語言模型多樣化能力。

關(guān)鍵詞:

專題首頁|財(cái)金網(wǎng)首頁

投資
探索

精彩
互動(dòng)

獨(dú)家
觀察

京ICP備2021034106號(hào)-38   營(yíng)業(yè)執(zhí)照公示信息  聯(lián)系我們:55 16 53 8 @qq.com  財(cái)金網(wǎng)  版權(quán)所有  cfenews.com