當(dāng)前位置：科技 >

醫(yī)療AI缺數(shù)據(jù)，何不讓ChatGPT自己聊出來？天橋腦科學(xué)研究院舉辦青年科學(xué)家研討會｜AI For Brain Science

文章來源：鈦媒體APP　發(fā)布時間： 2023-05-31 06:00:14　責(zé)任編輯：cfenews.com

+|-

都說醫(yī)療、金融等專業(yè)領(lǐng)域的語料數(shù)據(jù)稀缺，制約大模型AI的發(fā)展，那能不能讓兩個ChatGPT對聊，聊出點數(shù)據(jù)出來？

5月28日，天橋腦科學(xué)研究院（Tianqiao &Chrissy Chen Institute, TCCI）主辦AI For Brain Science系列會議第二期—— “面向AI模型的數(shù)據(jù)生成方法及其對醫(yī)療領(lǐng)域的啟示”。在上海交通大學(xué)計算機科學(xué)與工程系副教授吳夢玥主持下，三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語言模型（LLM）數(shù)據(jù)瓶頸的看法和實踐。

自對話和自蒸餾訓(xùn)練——快速構(gòu)建專屬GPT

(資料圖片僅供參考)

國際上一項研究評估指出，ChatGPT回答癌癥相關(guān)問題的水平已經(jīng)與美國國家癌癥研究所的官方回答持平。然而，ChatGPT只能通過受限的API進行訪問。涉及到個人醫(yī)療，人們也普遍不希望將自己的隱私信息分享給第三方公司。

針對這樣的難題，加州大學(xué)圣迭戈分校博士生許燦文和中山大學(xué)團隊的合作者提出了一種能自動生成高質(zhì)量多輪聊天語料庫的流程，利用ChatGPT與其自身進行對話，生成對話數(shù)據(jù)，再基于產(chǎn)生的對話數(shù)據(jù)調(diào)優(yōu)、增強開源的大型語言模型LLaMA。他們從而獲得了高質(zhì)量的專屬模型“白澤”，并在數(shù)天前推出了2.0版本。這個名字的靈感來源是中國古代傳說中的一種神獸，“能言語，達知萬物之情”。

許燦文介紹道，白澤在這個過程中并沒有學(xué)會新的知識，只是提取了大模型中的特定數(shù)據(jù)，并且保留了ChatGPT 分點作答、拒絕回答等強大的語言能力。這在專業(yè)上被比喻為一種“蒸餾”。進一步地，他們提出了反饋自蒸餾的概念，即利用ChatGPT當(dāng)教官，對白澤回答的結(jié)果進行評分排序，從而進一步提高了白澤模型的性能。

許燦文認為，白澤通過自動化的知識蒸餾，在特定領(lǐng)域達到ChatGPT的能力，成本卻遠遠低于ChatGPT，兼具經(jīng)濟意義和實用意義。在醫(yī)療領(lǐng)域，本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮，輔助患者診療。未來也許每個人都將有自己的專屬AI助手。

一種新的數(shù)據(jù)生成策略：大模型優(yōu)化醫(yī)療文本挖掘

萊斯大學(xué)博士生唐瑞祥和合作者同樣基于大模型提出了一種新的數(shù)據(jù)生成策略，并在命名實體識別(NER)、關(guān)系提?。≧E）等經(jīng)典的醫(yī)療文本挖掘任務(wù)上取得了更好的表現(xiàn)。

ChatGPT具有創(chuàng)造性的寫作能力，在醫(yī)療、金融、法律等標(biāo)注數(shù)據(jù)很少的領(lǐng)域以及知識密集型領(lǐng)域表現(xiàn)出色。然而，具體到醫(yī)療文本挖掘，他們發(fā)現(xiàn)將ChatGPT直接應(yīng)用大型模型處理醫(yī)療文本的下游任務(wù)，表現(xiàn)并不總是優(yōu)秀，也可能引發(fā)隱私問題。

唐瑞祥等提出了一種新策略：利用大型模型生成大量醫(yī)療數(shù)據(jù)，再通過小型模型對這些數(shù)據(jù)進行訓(xùn)練。實驗結(jié)果顯示，相較于直接利用大型模型執(zhí)行下游任務(wù)，這一新策略能夠取得更出色的效果，同時因為模型數(shù)據(jù)在本地，也大幅降低了潛在的隱私風(fēng)險。

他們進一步指出，隨著開源大模型數(shù)量的增加和大模型能力的提升，其產(chǎn)生的文本數(shù)據(jù)與人類產(chǎn)生的文本數(shù)據(jù)的差別將越來越小，發(fā)展檢測二者差別的技術(shù)手段將是一項富有挑戰(zhàn)性的工作。現(xiàn)有的兩種檢測手段，無論是黑盒檢測——直接比較大模型生成的文本數(shù)據(jù)與人類生成的文本數(shù)據(jù)（比如比較高頻詞分布），還是白盒檢測——開發(fā)者在生成文本上做標(biāo)簽，在未來都可能失效。能否有效地檢測出數(shù)據(jù)是不是GPT生成的，將影響到廣大用戶對大模型AI的信任程度。

大模型時代的數(shù)據(jù)生成有什么不一樣？

那么，從歷史演變的角度來看，在沒有GPT的時代，科學(xué)家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題？大模型又帶來了哪些新趨勢？

上海交通大學(xué)博士生曹瑞升對大模型時代來臨前夕，基于深度學(xué)習(xí)模型進行自動化數(shù)據(jù)生成或增廣方面的研究，尤其是反向生成進行了回顧性的總結(jié)。深度學(xué)習(xí)本質(zhì)上是一種找出從輸入x到輸出y的映射的過程，所以需要大量的 (x, y)數(shù)據(jù)對來訓(xùn)練。在醫(yī)療這樣不容易獲得大量真實數(shù)據(jù)的領(lǐng)域，就需要人為生成更多的(x, y)數(shù)據(jù)對。

曹瑞升將數(shù)據(jù)生成拆解為三個主要模塊。第一個是針對標(biāo)簽（y）的生成，介紹如何對將生成的標(biāo)簽與真實數(shù)據(jù)的分布進行耦合比較。第二個模塊是在生成數(shù)據(jù)時，介紹生成初始數(shù)據(jù)（x）的方法和限制。第三個模塊是在形成完整的數(shù)據(jù)(x, y)對之后，應(yīng)該如何保證數(shù)據(jù)質(zhì)量。

隨著大語言模型規(guī)模的不斷增大和能力的不斷提升，其生成的數(shù)據(jù)質(zhì)量也越來越高。這種生成數(shù)據(jù)所訓(xùn)練得到的模型不僅可以解決簡單的任務(wù)，如文本分類，還可以應(yīng)對問答等更加復(fù)雜的任務(wù)。

展望未來，曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時代的幾大新趨勢。首先是構(gòu)建更加通用的模型，以確保其能夠應(yīng)用于多樣化的任務(wù)。這意味著模型需要具備廣泛的適應(yīng)性和泛化能力。其次是從特定任務(wù)出發(fā)，進一步精細化地處理。例如，在醫(yī)療領(lǐng)域，甚至可以針對特定類型的抑郁癥進行專業(yè)化的任務(wù)處理，提供更加精準(zhǔn)和個性化的解決方案。最后，數(shù)據(jù)生成和模型訓(xùn)練的過程將從分離走向融合，而為了保證數(shù)據(jù)質(zhì)量的硬性過濾也將逐漸被軟性控制所取代。

數(shù)據(jù)生成研究與應(yīng)用的發(fā)展，為大模型AI走向各個專業(yè)領(lǐng)域，尤其是醫(yī)療領(lǐng)域提供廣闊的可能性。TCCI致力于支持全球范圍內(nèi)的腦科學(xué)交流，僅2022年就主辦、合辦、支持了近200場會議，遍及北美、亞洲、歐洲和大洋洲。AI For Brain Science系列會議致力于促進AI與腦科學(xué)研究人員的討論合作，將持續(xù)聚焦領(lǐng)域內(nèi)的數(shù)據(jù)瓶頸和關(guān)鍵痛點，為大模型AI的未來突破提供創(chuàng)新土壤，促進前沿AI技術(shù)在腦科學(xué)領(lǐng)域發(fā)揮更大的價值。

TCCI由盛大集團創(chuàng)始人，中國網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)文學(xué)行業(yè)開創(chuàng)者陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建，聚焦AI＋腦科學(xué)，支持、推進全球范圍內(nèi)腦科學(xué)研究，造福人類。TCCI一期投入5億元人民幣支持中國腦科學(xué)研究，與上海周良輔醫(yī)學(xué)發(fā)展基金會合作成立上海陳天橋腦健康研究所，與華山醫(yī)院、上海市精神衛(wèi)生中心等建立戰(zhàn)略合作，設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實驗室、人工智能與精神健康前沿實驗室。在國際上，TCCI與加州理工學(xué)院合作成立TCCI加州理工研究院。

關(guān)鍵詞：

更多資訊>>