活到老,學(xué)到老,人類可以在不斷變化的環(huán)境中連續(xù)自適應(yīng)地學(xué)習(xí)——在新的環(huán)境中不斷吸收新知識(shí),并根據(jù)不同的環(huán)境靈活調(diào)整自己的行為。模仿碳基生命的這一特性,針對(duì)連續(xù)學(xué)習(xí)(continual learning,CL)的機(jī)器學(xué)習(xí)算法的研究應(yīng)運(yùn)而生,并成為大家日益關(guān)注的焦點(diǎn)。
那么,什么是連續(xù)學(xué)習(xí)?相較于傳統(tǒng)單任務(wù)的機(jī)器學(xué)習(xí)方法,連續(xù)學(xué)習(xí)旨在學(xué)習(xí)一系列任務(wù),即在連續(xù)的信息流中,從不斷改變的概率分布中學(xué)習(xí)和記住多個(gè)任務(wù),并隨著時(shí)間的推移,不斷學(xué)習(xí)新知識(shí),同時(shí)保留之前學(xué)到的知識(shí)。
(相關(guān)資料圖)
然而,這個(gè)領(lǐng)域的技術(shù)發(fā)展并非一帆風(fēng)順,面臨著許多難題?!肚f子·秋水》中曾描述過(guò)一個(gè)這樣的故事:戰(zhàn)國(guó)時(shí)期,燕國(guó)有一少年聽(tīng)聞趙國(guó)都城邯鄲人走路姿勢(shì)異常優(yōu)美,心向往之。遺憾的是,他在跟隨邯鄲人學(xué)步數(shù)月后,卻把之前走路姿勢(shì)忘記了,最后甚至都不會(huì)走路了,無(wú)奈只好爬回了燕國(guó)。有趣的是,這則寓言故事深蘊(yùn)著當(dāng)前連續(xù)學(xué)習(xí)模型的困境之一——災(zāi)難性遺忘(catastrophic forgetting),模型在學(xué)習(xí)新任務(wù)之后,由于參數(shù)更新對(duì)模型的干擾,會(huì)忘記如何解決舊任務(wù)。而對(duì)于機(jī)器學(xué)習(xí)技術(shù)而言,另一普遍關(guān)注的概念便是泛化誤差(generalization error),這是衡量機(jī)器學(xué)習(xí)模型泛化能力的標(biāo)準(zhǔn),用以評(píng)估訓(xùn)練好的模型對(duì)未知數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性。泛化誤差越小,說(shuō)明模型的泛化能力越好。
盡管目前很多實(shí)驗(yàn)研究致力于解決連續(xù)學(xué)習(xí)中的災(zāi)難性遺忘問(wèn)題,但是對(duì)連續(xù)學(xué)習(xí)的理論研究還十分有限。哪些因素與災(zāi)難性遺忘和泛化誤差相關(guān)?它們?nèi)绾蚊鞔_地影響模型的連續(xù)學(xué)習(xí)能力?對(duì)此我們所知甚少。
近期,來(lái)自美國(guó)俄亥俄州立大學(xué)Ness Shroff教授團(tuán)隊(duì)的研究工作“Theory on Forgetting and Generalization of Continual Learning”或有望為這一問(wèn)題提供詳細(xì)的解答。他們從理論上解釋了過(guò)度參數(shù)化(over parameterization)、任務(wù)相似性(task similarity)和任務(wù)排序(task ordering)對(duì)遺忘和泛化誤差的影響,發(fā)現(xiàn)更多的模型參數(shù)、更低的噪聲水平、更大的相鄰任務(wù)間差異,有助于降低遺忘。同時(shí),通過(guò)深度神經(jīng)網(wǎng)絡(luò)(DNN),他們?cè)谡鎸?shí)數(shù)據(jù)集上驗(yàn)證了該理論的可行性。
圖注:論文封面,該論文于2023年2月刊登在ArXiv上
連續(xù)學(xué)習(xí)線性模型的構(gòu)建
在經(jīng)典的機(jī)器學(xué)習(xí)理論中,參數(shù)越多,模型越復(fù)雜,往往會(huì)帶來(lái)不期望見(jiàn)到的過(guò)擬合。但以DNN為代表的深度學(xué)習(xí)模型則不然,其參數(shù)越多,模型訓(xùn)練效果越好。為了理解這一現(xiàn)象,作者更加關(guān)注在過(guò)參數(shù)化的情況下(p>n),連續(xù)學(xué)習(xí)模型的表現(xiàn)。文章首次定義了基于過(guò)參數(shù)化線性模型的連續(xù)學(xué)習(xí)模型,考量其在災(zāi)難性遺忘和泛化誤差問(wèn)題上的閉合解(定理1.1)。
定理1.1當(dāng)p≥n+2時(shí),則:
T={1,…,T}代表任務(wù)序列;||wi? - wj?||2表征任務(wù)i和j之間的相似性;p為模型實(shí)際參數(shù)的數(shù)量;n為模型需要的參數(shù)數(shù)量;r為過(guò)參數(shù)化的比例,r=1-n/p;σ為噪聲水平;ci,j =(1-r)(rT-i-rj-i+rT-j),其中1≤i≤j≤T;更多參數(shù)介紹詳看原始文獻(xiàn)和附錄部分。
(9)式和(10)式分別為災(zāi)難性遺忘FT和泛化誤差GT的數(shù)學(xué)表示。它們不僅描述了連續(xù)學(xué)習(xí)在線性模型中是如何工作的,還為其在一些真實(shí)的數(shù)據(jù)集和DNN中的應(yīng)用提供指導(dǎo)。
連續(xù)學(xué)習(xí)中的鼎足三分
在上述數(shù)學(xué)模型的基礎(chǔ)上,作者還研究了在連續(xù)學(xué)習(xí)過(guò)程中,過(guò)參數(shù)化、任務(wù)之間的相似程度和任務(wù)的訓(xùn)練順序三個(gè)因素對(duì)災(zāi)難性遺忘和泛化誤差的影響。
1)過(guò)參數(shù)化
·更多的模型訓(xùn)練參數(shù)將有助于降低遺忘
如定理1.1所示,當(dāng)表示參數(shù)數(shù)量的p趨近于0時(shí),E[FT]也將趨近于零。
·噪聲水平和(或)任務(wù)間相似度低的情況下,過(guò)參數(shù)化更好
為了比較過(guò)參數(shù)化和欠參數(shù)化時(shí)模型的性能,作者構(gòu)建了與定理1.1類似的,在欠參數(shù)情況下的理論模型定理1.2。
定理1.2當(dāng)n≥p+2時(shí),則:
如定理1.2所示,欠參數(shù)化的情況下,當(dāng)噪聲水平σ較大時(shí),以及當(dāng)訓(xùn)練的任務(wù)間區(qū)分度較大時(shí),E[FT]和E[GT]都變大。相反,過(guò)參數(shù)化的情況下,當(dāng)噪聲水平σ較大時(shí),以及當(dāng)訓(xùn)練的任務(wù)間不太相似時(shí),E[FT]和E[GT]都變小。這表明當(dāng)噪聲水平高和(或)訓(xùn)練任務(wù)相似性較低時(shí),過(guò)參數(shù)化的情況可能比欠參數(shù)化的情況訓(xùn)練效果更好,即存在良性過(guò)擬合。
2)連續(xù)訓(xùn)練任務(wù)的相似性
· 泛化誤差隨著任務(wù)相似性的增加而降低,而遺忘則可能不會(huì)隨之降低
如定理1.1所示,由于公式(10)中G2項(xiàng)的系數(shù)始終為正,所以當(dāng)任務(wù)之間越相似,區(qū)分度越少時(shí),泛化誤差會(huì)相應(yīng)降低。但是由于公式(9)中,F(xiàn)2項(xiàng)的系數(shù)并不總是為正,所以可能出現(xiàn)任務(wù)之間的相似性增加模型的遺忘性能也增加的情況。
3)任務(wù)訓(xùn)練順序
· 在早期階段將差異大的任務(wù)相鄰訓(xùn)練,將有助于降低遺忘
為了找到連續(xù)學(xué)習(xí)中,任務(wù)的最優(yōu)訓(xùn)練順序。作者考慮了兩種特殊情況。情況一,任務(wù)集由一個(gè)特殊的任務(wù),和剩余其它完全一模一樣的任務(wù)組成。情況二,任務(wù)集由數(shù)目相同的不同任務(wù)組成。通過(guò)對(duì)兩種情況的比較分析得出:
首先,特殊的任務(wù)在訓(xùn)練時(shí),應(yīng)優(yōu)先在前半段執(zhí)行;
其次,相鄰任務(wù)之間應(yīng)差異較大;這些措施都將有助于降低連續(xù)學(xué)習(xí)模型的遺忘。但是,最小化的遺忘和最小化的泛化誤差的最佳任務(wù)訓(xùn)練排序有時(shí)并不相同。
DNN對(duì)連續(xù)學(xué)習(xí)模型的驗(yàn)證
最后,為了驗(yàn)證上述推論的可靠性,作者使用DNN在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。后續(xù)的實(shí)驗(yàn)結(jié)果明確地證實(shí)了,任務(wù)相似性對(duì)連續(xù)學(xué)習(xí)模型災(zāi)難性遺忘的非單調(diào)性影響。而關(guān)于任務(wù)排序影響的實(shí)驗(yàn)結(jié)果也與前面線性模型中的發(fā)現(xiàn)一致,即應(yīng)在模型訓(xùn)練早期設(shè)置區(qū)分度較大的任務(wù)學(xué)習(xí),并安排區(qū)分度較大任務(wù)相鄰訓(xùn)練。
表1:使用TRGP和TRGP+兩種任務(wù)策略在不同數(shù)據(jù)集中訓(xùn)練得到的準(zhǔn)確性和反向遷移(用負(fù)值表示遺忘;值越大/正,表示知識(shí)反向遷移效果越好)結(jié)果
正向遷移:在學(xué)習(xí)新任務(wù)的過(guò)程中,利用以前的任務(wù)中學(xué)習(xí)到的經(jīng)驗(yàn)來(lái)幫助新任務(wù)的知識(shí)學(xué)習(xí)。
反向遷移:在學(xué)習(xí)新任務(wù)的過(guò)程中,學(xué)習(xí)到的新知識(shí),鞏固了以前任務(wù)的知識(shí)學(xué)習(xí)。
PMNIST數(shù)據(jù)集:MNIST數(shù)據(jù)集是機(jī)器學(xué)習(xí)模型訓(xùn)練所使用的經(jīng)典數(shù)據(jù)集,包含0-9這10個(gè)數(shù)字的手寫樣本,其中每個(gè)樣本的輸入是一個(gè)圖像,標(biāo)簽是圖像所代表的數(shù)字。PMNIST是基于MNIST數(shù)據(jù)集的變種,由10種不同的MNIST樣本置換順序的連續(xù)學(xué)習(xí)任務(wù)組成,可進(jìn)行連續(xù)學(xué)習(xí)問(wèn)題的評(píng)估。Split CIFAR-100數(shù)據(jù)集:CIFAR-100數(shù)據(jù)集也是機(jī)器學(xué)習(xí)模型訓(xùn)練所使用的經(jīng)典數(shù)據(jù)集,包含100種分類任務(wù),如蜜蜂、蝴蝶等。每類有600張彩色圖像,其中500張作為訓(xùn)練集,100張作為測(cè)試集。同樣,為了在該數(shù)據(jù)集上進(jìn)行連續(xù)學(xué)習(xí)問(wèn)題的評(píng)估,作者將CIFAR-100數(shù)據(jù)集等分為10組,每一組由10個(gè)完全不同的分類任務(wù)組成,重構(gòu)了Split CIFAR-100連續(xù)學(xué)習(xí)數(shù)據(jù)集。
更有趣的是,作者發(fā)現(xiàn),相較于賦以不同時(shí)間點(diǎn)學(xué)習(xí)的舊任務(wù)相同的權(quán)重(TRGP)的策略,賦以最近學(xué)習(xí)的舊任務(wù)更多的權(quán)重(TRGP+),可以更好地促進(jìn)連續(xù)學(xué)習(xí)模型的知識(shí)正向遷移和反向遷移(表 1)。這些發(fā)現(xiàn)有望為后續(xù)連續(xù)學(xué)習(xí)策略的設(shè)計(jì)提供理論參考。
Lin, S., Ju, P., Liang, Y., & Shroff, N. (2023). Theory on Forgetting and Generalization of Continual Learning. ArXiv. /abs/2302.05836韓亞楠, & Liu, Jianwei & Luo, Xiong-Lin. (2021). 連續(xù)學(xué)習(xí)研究進(jìn)展. Journal of Computer Research and Development. 10.7544/issn1000-1239.2022.20201058.
關(guān)鍵詞: