美西時(shí)間3月14日 OpenAI 最新發(fā)布多模態(tài)大語言模型GPT-4。根據(jù)官方描述,該模型比以往任何人工智能系統(tǒng)都“更具創(chuàng)造性和協(xié)作性”,擁有更廣泛的知識(shí)基礎(chǔ),更善于解決問題。作為一個(gè)多模態(tài)模型,除了文本之外,它還接受圖像作為輸入。
(相關(guān)資料圖)
根據(jù) OpenAI 的描述,GPT-4是結(jié)構(gòu)化問題解決任務(wù)的“突破”。例如,GPT-4 可以提供分步說明來回答有關(guān)如何清潔水族箱的問題。在模擬律師考試中,GPT-4 預(yù)計(jì)得分在考試的前 10%,而GPT-3.5得分在后 10%。
據(jù)官方描述 GPT-4 在邏輯答案方面優(yōu)于 ChatGPT。| 圖片:OpenAI
GPT-4 可以處理超過 25,000 個(gè)單詞,適合生成更大的文檔和分析。GPT-4 的數(shù)據(jù)庫來自 2021 年 9 月之前。據(jù) OpenAI 稱,GPT 3.5 是新系統(tǒng)的首次試運(yùn)行。
OpenAI 表示,新的 AI 系統(tǒng)直接基于從對(duì)抗性測(cè)試程序中獲得的經(jīng)驗(yàn)教訓(xùn)和ChatGPT上的反饋。據(jù)稱,在真實(shí)性和可操作性方面,它明顯優(yōu)于現(xiàn)有系統(tǒng),盡管它仍然“遠(yuǎn)非完美”。
與 GPT 3.5 相比,GPT 4 在人類任務(wù)上的性能表現(xiàn)。| 圖片:OpenAI
GPT-4 在常見的機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中也比其前身高出 16%,在多語言任務(wù)上比 GPT 3.5 高出 15%。
OpenAI 表示,它還開發(fā)了新方法來預(yù)測(cè) GPT-4 在某些領(lǐng)域的性能,使用的模型訓(xùn)練僅需 GPT-4 千分之一的計(jì)算工作量。
在對(duì) AI 功能的預(yù)測(cè)中,OpenAI 看到了一個(gè)重要的安全方面,鑒于 AI 的潛在影響,該方面沒有得到充分解決。OpenAI 寫道:“我們正在加大力度開發(fā)方法,為社會(huì)提供更好的未來系統(tǒng)預(yù)期指導(dǎo),我們希望這成為該領(lǐng)域的共同目標(biāo)?!?/p>
OpenAI 也開始使用 GPT-4 來幫助人類評(píng)估 AI 輸出。該公司表示,這是其先前宣布的調(diào)整戰(zhàn)略的第二階段。
GPT-4 可以處理圖像輸入
GPT-4 最明顯的新特性是它能夠?qū)D像作為輸入進(jìn)行處理。例如,它可以使用圖像輸入來解釋模因或主題的獨(dú)特性,它可以逐步分解信息圖表,總結(jié)圖表或解釋它們的各個(gè)方面。
GPT-4 逐步解釋了一個(gè)圖像笑話。| 圖片:OpenAI
在常見的標(biāo)準(zhǔn)測(cè)試中,GPT-4 已經(jīng)優(yōu)于現(xiàn)有的文本圖像模型。OpenAI 表示它仍在挖掘 GPT-4 在圖像解決上“新的和令人興奮的任務(wù)”。
為了控制模型,OpenAI 依賴于 API 客戶端的系統(tǒng)消息。在某種程度上,這些可用于確定模型響應(yīng)的特征——即 GPT-4 的響應(yīng)更多是好萊塢演員的風(fēng)格還是蘇格拉底式的方式。
與此前 GPT 模型類似的限制
盡管在推理和多模態(tài)方面取得了重大進(jìn)展,但 GPT-4 與其前身具有相似的局限性。例如,它仍然不完全可靠,容易產(chǎn)生幻覺。然而,在 OpenAI 的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4 的表現(xiàn)平均比 GPT 3.5 高 40%,平均準(zhǔn)確率得分在 70% 到 80% 之間。
GPT-4 幻覺比 GPT 3.5 少,但問題遠(yuǎn)未解決。| 圖片:OpenAI
GPT-4 還繼續(xù)制造偏見或強(qiáng)化現(xiàn)有偏見——OpenAI 承認(rèn),“還有很多工作要做”。在此背景下,該公司指出了最近宣布的可定制 AI 語言模型的計(jì)劃,這些模型可以反映不同用戶的價(jià)值觀,從而代表更大程度的意見多樣性。
OpenAI 顯著提高了模型不應(yīng)回答的查詢的安全性,因?yàn)樗鼈冞`反了 OpenAI 的內(nèi)容政策。與 GPT 3.5 相比,據(jù)說 GPT-4 對(duì)關(guān)鍵查詢的回答減少了 82%。據(jù)稱,針對(duì)敏感查詢(例如與醫(yī)學(xué)主題相關(guān)的查詢)提供符合 OpenAI 政策的答案的可能性要高出 29%。
GPT-4 通過 ChatGPT Plus 啟動(dòng),API 通過候補(bǔ)名單啟動(dòng)
OpenAI 最初將 GPT-4 提供給ChatGPT Plus的付費(fèi)客戶。該服務(wù)每月收費(fèi) 20 美元,可在全球范圍內(nèi)使用。與以前的模型一樣,開發(fā)人員將通過 API 獲得訪問權(quán)限。當(dāng)前開發(fā)者可以通過等待GPT-4 候補(bǔ)名單加入。
GPT-4 的上下文長度限制在大約 8,000 個(gè)token,或大約 25,000 個(gè)單詞。還有一個(gè)版本可以處理多達(dá) 32,000 個(gè)token,或大約 50 頁,但 OpenAI 目前限制訪問。
價(jià)格為每 1000個(gè)提示token 0.03 美元和每 1000個(gè) 完成token(8k)0.06 美元,明顯高于 ChatGPT 和 GPT 3.5 的價(jià)格。最便宜的模型 gpt-3.5-turbo,每 1000 個(gè)token的成本僅為 0.002 美元。
當(dāng)前的 OpenAI 報(bào)告沒有提供相關(guān)架構(gòu)(包括模型大?。?、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)建等的更多詳細(xì)信息。
OpenAI 沒有公開參數(shù)數(shù)量,也可以解釋為該公司在其 PR 中不再對(duì)參數(shù)數(shù)量具有決定性的重視,因?yàn)閮H此一項(xiàng)對(duì)模型質(zhì)量沒有意義,但許多人們認(rèn)為確實(shí)如此。
在 GPT-4 演示的準(zhǔn)備階段,社交媒體中提到了一些荒謬的參數(shù)數(shù)字,以可視化 GPT-4 的性能并助長炒作。在之前的所有模型中,OpenAI 都將模型大小作為一種差異化特征進(jìn)行傳達(dá)。
據(jù) OpenAI 稱,GPT-4 的首批客戶包括語言學(xué)習(xí)應(yīng)用程序 Duolingo、計(jì)算機(jī)視覺應(yīng)用程序 Be My Eyes,以及使用 GPT-4 組織其內(nèi)部知識(shí)庫的摩根士丹利財(cái)富管理公司。冰島政府正在使用 GPT-4 來保護(hù)自己的語言。OpenAI 首席執(zhí)行官 Sam Altman 表示:“我們已經(jīng)完成了 GPT-4 的初步培訓(xùn),但我們花了很長時(shí)間和大量工作才準(zhǔn)備好發(fā)布它?!?/p>
在 OpenAI 的 GPT-4 披露之后,微軟還透露 Bing Chat從一開始就在使用 GPT-4。因此,過去幾周與“Sydney”互動(dòng)過的任何人都可能已經(jīng)對(duì) GPT-4 的功能有了一些了解。
參考文章:
https://openai.com/research/gpt-4https://the-decoder.com/open-ai-gpt-4-announcement/
關(guān)鍵詞: