女人久久久,最近更新中文字幕在线,成人国内精品久久久久影院vr,中文字幕亚洲综合久久综合,久久精品秘?一区二区三区美小说

原創(chuàng)生活

國(guó)內(nèi) 商業(yè) 滾動(dòng)

基金 金融 股票

期貨金融

科技 行業(yè) 房產(chǎn)

銀行 公司 消費(fèi)

生活滾動(dòng)

保險(xiǎn) 海外 觀察

財(cái)經(jīng) 生活 期貨

當(dāng)前位置:科技 >

醫(yī)療AI缺數(shù)據(jù),何不讓ChatGPT自己聊出來(lái)?天橋腦科學(xué)研究院舉辦青年科學(xué)家研討會(huì)|AI For Brain Science

文章來(lái)源:鈦媒體APP  發(fā)布時(shí)間: 2023-05-31 06:00:14  責(zé)任編輯:cfenews.com
+|-

都說(shuō)醫(yī)療、金融等專(zhuān)業(yè)領(lǐng)域的語(yǔ)料數(shù)據(jù)稀缺,制約大模型AI的發(fā)展,那能不能讓兩個(gè)ChatGPT對(duì)聊,聊出點(diǎn)數(shù)據(jù)出來(lái)?

5月28日,天橋腦科學(xué)研究院(Tianqiao &Chrissy Chen Institute, TCCI)主辦AI For Brain Science系列會(huì)議第二期—— “面向AI模型的數(shù)據(jù)生成方法及其對(duì)醫(yī)療領(lǐng)域的啟示”。在上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授吳夢(mèng)玥主持下,三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語(yǔ)言模型(LLM)數(shù)據(jù)瓶頸的看法和實(shí)踐。

自對(duì)話和自蒸餾訓(xùn)練——快速構(gòu)建專(zhuān)屬GPT


(資料圖片僅供參考)

國(guó)際上一項(xiàng)研究評(píng)估指出,ChatGPT回答癌癥相關(guān)問(wèn)題的水平已經(jīng)與美國(guó)國(guó)家癌癥研究所的官方回答持平。然而,ChatGPT只能通過(guò)受限的API進(jìn)行訪問(wèn)。涉及到個(gè)人醫(yī)療,人們也普遍不希望將自己的隱私信息分享給第三方公司。

針對(duì)這樣的難題,加州大學(xué)圣迭戈分校博士生許燦文和中山大學(xué)團(tuán)隊(duì)的合作者提出了一種能自動(dòng)生成高質(zhì)量多輪聊天語(yǔ)料庫(kù)的流程,利用ChatGPT與其自身進(jìn)行對(duì)話,生成對(duì)話數(shù)據(jù),再基于產(chǎn)生的對(duì)話數(shù)據(jù)調(diào)優(yōu)、增強(qiáng)開(kāi)源的大型語(yǔ)言模型LLaMA。他們從而獲得了高質(zhì)量的專(zhuān)屬模型“白澤”,并在數(shù)天前推出了2.0版本。這個(gè)名字的靈感來(lái)源是中國(guó)古代傳說(shuō)中的一種神獸,“能言語(yǔ),達(dá)知萬(wàn)物之情”。

許燦文介紹道,白澤在這個(gè)過(guò)程中并沒(méi)有學(xué)會(huì)新的知識(shí),只是提取了大模型中的特定數(shù)據(jù),并且保留了ChatGPT 分點(diǎn)作答、拒絕回答等強(qiáng)大的語(yǔ)言能力。這在專(zhuān)業(yè)上被比喻為一種“蒸餾”。進(jìn)一步地,他們提出了反饋?zhàn)哉麴s的概念,即利用ChatGPT當(dāng)教官,對(duì)白澤回答的結(jié)果進(jìn)行評(píng)分排序,從而進(jìn)一步提高了白澤模型的性能。

許燦文認(rèn)為,白澤通過(guò)自動(dòng)化的知識(shí)蒸餾,在特定領(lǐng)域達(dá)到ChatGPT的能力,成本卻遠(yuǎn)遠(yuǎn)低于ChatGPT,兼具經(jīng)濟(jì)意義和實(shí)用意義。在醫(yī)療領(lǐng)域,本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮,輔助患者診療。未來(lái)也許每個(gè)人都將有自己的專(zhuān)屬AI助手。

一種新的數(shù)據(jù)生成策略:大模型優(yōu)化醫(yī)療文本挖掘

萊斯大學(xué)博士生唐瑞祥和合作者同樣基于大模型提出了一種新的數(shù)據(jù)生成策略,并在命名實(shí)體識(shí)別(NER)、關(guān)系提?。≧E)等經(jīng)典的醫(yī)療文本挖掘任務(wù)上取得了更好的表現(xiàn)。

ChatGPT具有創(chuàng)造性的寫(xiě)作能力,在醫(yī)療、金融、法律等標(biāo)注數(shù)據(jù)很少的領(lǐng)域以及知識(shí)密集型領(lǐng)域表現(xiàn)出色。然而,具體到醫(yī)療文本挖掘,他們發(fā)現(xiàn)將ChatGPT直接應(yīng)用大型模型處理醫(yī)療文本的下游任務(wù),表現(xiàn)并不總是優(yōu)秀,也可能引發(fā)隱私問(wèn)題。

唐瑞祥等提出了一種新策略:利用大型模型生成大量醫(yī)療數(shù)據(jù),再通過(guò)小型模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示,相較于直接利用大型模型執(zhí)行下游任務(wù),這一新策略能夠取得更出色的效果,同時(shí)因?yàn)槟P蛿?shù)據(jù)在本地,也大幅降低了潛在的隱私風(fēng)險(xiǎn)。

他們進(jìn)一步指出,隨著開(kāi)源大模型數(shù)量的增加和大模型能力的提升,其產(chǎn)生的文本數(shù)據(jù)與人類(lèi)產(chǎn)生的文本數(shù)據(jù)的差別將越來(lái)越小,發(fā)展檢測(cè)二者差別的技術(shù)手段將是一項(xiàng)富有挑戰(zhàn)性的工作?,F(xiàn)有的兩種檢測(cè)手段,無(wú)論是黑盒檢測(cè)——直接比較大模型生成的文本數(shù)據(jù)與人類(lèi)生成的文本數(shù)據(jù)(比如比較高頻詞分布),還是白盒檢測(cè)——開(kāi)發(fā)者在生成文本上做標(biāo)簽,在未來(lái)都可能失效。能否有效地檢測(cè)出數(shù)據(jù)是不是GPT生成的,將影響到廣大用戶對(duì)大模型AI的信任程度。

大模型時(shí)代的數(shù)據(jù)生成有什么不一樣?

那么,從歷史演變的角度來(lái)看,在沒(méi)有GPT的時(shí)代,科學(xué)家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題?大模型又帶來(lái)了哪些新趨勢(shì)?

上海交通大學(xué)博士生曹瑞升對(duì)大模型時(shí)代來(lái)臨前夕,基于深度學(xué)習(xí)模型進(jìn)行自動(dòng)化數(shù)據(jù)生成或增廣方面的研究,尤其是反向生成進(jìn)行了回顧性的總結(jié)。深度學(xué)習(xí)本質(zhì)上是一種找出從輸入x到輸出y的映射的過(guò)程,所以需要大量的 (x, y)數(shù)據(jù)對(duì)來(lái)訓(xùn)練。在醫(yī)療這樣不容易獲得大量真實(shí)數(shù)據(jù)的領(lǐng)域,就需要人為生成更多的(x, y)數(shù)據(jù)對(duì)。

曹瑞升將數(shù)據(jù)生成拆解為三個(gè)主要模塊。第一個(gè)是針對(duì)標(biāo)簽(y)的生成,介紹如何對(duì)將生成的標(biāo)簽與真實(shí)數(shù)據(jù)的分布進(jìn)行耦合比較。第二個(gè)模塊是在生成數(shù)據(jù)時(shí),介紹生成初始數(shù)據(jù)(x)的方法和限制。第三個(gè)模塊是在形成完整的數(shù)據(jù)(x, y)對(duì)之后,應(yīng)該如何保證數(shù)據(jù)質(zhì)量。

隨著大語(yǔ)言模型規(guī)模的不斷增大和能力的不斷提升,其生成的數(shù)據(jù)質(zhì)量也越來(lái)越高。這種生成數(shù)據(jù)所訓(xùn)練得到的模型不僅可以解決簡(jiǎn)單的任務(wù),如文本分類(lèi),還可以應(yīng)對(duì)問(wèn)答等更加復(fù)雜的任務(wù)。

展望未來(lái),曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時(shí)代的幾大新趨勢(shì)。首先是構(gòu)建更加通用的模型,以確保其能夠應(yīng)用于多樣化的任務(wù)。這意味著模型需要具備廣泛的適應(yīng)性和泛化能力。其次是從特定任務(wù)出發(fā),進(jìn)一步精細(xì)化地處理。例如,在醫(yī)療領(lǐng)域,甚至可以針對(duì)特定類(lèi)型的抑郁癥進(jìn)行專(zhuān)業(yè)化的任務(wù)處理,提供更加精準(zhǔn)和個(gè)性化的解決方案。最后,數(shù)據(jù)生成和模型訓(xùn)練的過(guò)程將從分離走向融合,而為了保證數(shù)據(jù)質(zhì)量的硬性過(guò)濾也將逐漸被軟性控制所取代。

數(shù)據(jù)生成研究與應(yīng)用的發(fā)展,為大模型AI走向各個(gè)專(zhuān)業(yè)領(lǐng)域,尤其是醫(yī)療領(lǐng)域提供廣闊的可能性。TCCI致力于支持全球范圍內(nèi)的腦科學(xué)交流,僅2022年就主辦、合辦、支持了近200場(chǎng)會(huì)議,遍及北美、亞洲、歐洲和大洋洲。AI For Brain Science系列會(huì)議致力于促進(jìn)AI與腦科學(xué)研究人員的討論合作,將持續(xù)聚焦領(lǐng)域內(nèi)的數(shù)據(jù)瓶頸和關(guān)鍵痛點(diǎn),為大模型AI的未來(lái)突破提供創(chuàng)新土壤,促進(jìn)前沿AI技術(shù)在腦科學(xué)領(lǐng)域發(fā)揮更大的價(jià)值。

TCCI由盛大集團(tuán)創(chuàng)始人,中國(guó)網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)文學(xué)行業(yè)開(kāi)創(chuàng)者陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建,聚焦AI+腦科學(xué),支持、推進(jìn)全球范圍內(nèi)腦科學(xué)研究,造福人類(lèi)。TCCI一期投入5億元人民幣支持中國(guó)腦科學(xué)研究,與上海周良輔醫(yī)學(xué)發(fā)展基金會(huì)合作成立上海陳天橋腦健康研究所,與華山醫(yī)院、上海市精神衛(wèi)生中心等建立戰(zhàn)略合作,設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室。在國(guó)際上,TCCI與加州理工學(xué)院合作成立TCCI加州理工研究院。

關(guān)鍵詞:

專(zhuān)題首頁(yè)|財(cái)金網(wǎng)首頁(yè)

投資
探索

精彩
互動(dòng)

獨(dú)家
觀察

京ICP備2021034106號(hào)-38   營(yíng)業(yè)執(zhí)照公示信息  聯(lián)系我們:55 16 53 8 @qq.com 關(guān)于我們 財(cái)金網(wǎng)  版權(quán)所有  cfenews.com