



版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2017 年深度學(xué)習(xí)優(yōu)化算法最新進(jìn)展:如何改進(jìn) SGD 和 Adam 方法?行者武松 2018-01-01 16:59:00 瀏覽 2952 評(píng)論 0本文來(lái)自 AI 新量子位(QbitAI)深度學(xué)習(xí)的基本目標(biāo),就是尋找一個(gè)泛化能力強(qiáng)的最小值,模型的快速性和可靠性也是一個(gè)加分點(diǎn)。隨機(jī)梯度下降( SGD)方法是 1951 年由 Robbins 和 Monro 提出的1,至今已有 60 年歷史。在當(dāng)前的深度學(xué)習(xí)研究中,這種方法,一般被用在反向過(guò)程中。近年來(lái),研究提出一些新的優(yōu)化算法,使用了不同方程來(lái)更新模型參數(shù)。2015 年 Kingma 和 Ba 提出的 Adam 方法18,可看作是目前最常用的優(yōu)
2、化算法之一。這表明,從學(xué)習(xí)工作者的角度來(lái)說(shuō),深度學(xué)習(xí)優(yōu)化中的最佳方法在很大程度上是保持不變的。然而,今年還有很多新的方法提出,這可能會(huì)影響接下來(lái)在模型優(yōu)化中所使用的方法。在這篇文章中,Ruder 從他的角度,介紹了深度學(xué)習(xí)優(yōu)化方法中一些振奮人心的工作和可能的發(fā)展方向。閱讀這篇文章時(shí),要熟悉 SGD 方法和自適應(yīng)學(xué)習(xí)率方法,如 Adam 方法。改進(jìn) Adam 方法摘要: 本文來(lái)自 AI 新量子位(QbitAI) 深度學(xué)習(xí)的基本目標(biāo),就是尋找一個(gè)泛化能力強(qiáng)的最小值,模型的快速性和可靠性也是一個(gè)加分點(diǎn)。 隨機(jī)梯度下降(SGD)方法是 1951 年由Robbins 和 Monro 提出的1,至今已有
3、60 年歷史。· 性能· 算法· 深度學(xué)習(xí)盡管,像 Adam 這樣的自適應(yīng)學(xué)習(xí)率方法使用十分廣泛,但是,在物體識(shí)別17和翻譯 3等研究任務(wù)中,很多前沿的研究成果仍然在使用傳統(tǒng)的帶動(dòng)量 SGD 方法。Wilson 等人在最新研究中15給出一些理由來(lái)說(shuō)明,與帶動(dòng)量 SGD 方法相比,自適應(yīng)學(xué)習(xí)率方收斂于不同的極小值,且結(jié)果通常不大理想。從經(jīng)驗(yàn)上得出,在物體識(shí)別、字符級(jí)語(yǔ)言建模和句法分析等任務(wù)中, 自適應(yīng)學(xué)習(xí)率方法得到的極小值通常比帶動(dòng)量 SGD 方法得到的極小值要差。這似乎與直覺相反,因?yàn)?Adam 方法有很好的收斂機(jī)制,且其自適應(yīng)學(xué)習(xí)率會(huì)比傳統(tǒng)的 SGD 方法表現(xiàn)得
4、更好。但是, Adam 和其他自適應(yīng)學(xué)習(xí)率方法也有一些局限性。解耦衰減在一些數(shù)據(jù)集上, Adam 方法的泛化能力比帶動(dòng)量 SGD 方法要差的一衰減( weight decay) 。個(gè)可能是衰減常被用于圖像分類問(wèn)題中,即在每次參數(shù)更新后,把衰減率 Wt 與權(quán)重 t 相乘,其中衰減率 Wt 略小于 1:這能防止權(quán)重變得過(guò)大。因此這取決于施加在 Loss 上的衰減也可以理解為一種 L2 正則化項(xiàng), 衰減率 Wt:衰減方法一般可作為上述的正則化項(xiàng),或是直接修改梯度,通常在很多神經(jīng)網(wǎng)絡(luò)庫(kù)中有調(diào)用函數(shù)。在動(dòng)量和 Adam 算法的更新方程中,通衰減與 L2 正則化不一樣。過(guò)與其他衰減項(xiàng)相乘來(lái)修改梯度值時(shí),所
5、以因此, Loshchilov 和 Hutter 在 2017 年提出“解耦衰減”19,與原始定義相同,在每次參數(shù)更新后通過(guò)這種方法來(lái)更新梯度。帶動(dòng)量和衰減的 SGD 方法( SGDW)按照以下方式更新梯度: 其中, 為學(xué)習(xí)率, 第二個(gè)方程的第三解耦衰減。同樣地, 我衰減的 Adam 方法( AdamW): 們得到帶其中, mt 和 m t 是第一時(shí)刻的偏差和偏差校正估計(jì)值, vt 和 v t 是第二時(shí)刻的偏差和偏差校正估計(jì)值, 1 和 2 是相應(yīng)的衰減率,且加入相同的衰減項(xiàng)。作者表示,這種方法大幅提高了 Adam 方法的泛化能力, 且在圖像分類數(shù)據(jù)集上與帶動(dòng)量 SGD 方法效果相當(dāng)。另外,它
6、將學(xué)習(xí)率的選擇過(guò)程與衰減的選擇過(guò)程分離開,這能更好地實(shí)現(xiàn)超參數(shù)優(yōu)化,因?yàn)槌瑓?shù)間不再互相依賴。它還把優(yōu)化器的實(shí)現(xiàn)與衰減的實(shí)現(xiàn)過(guò)程,這有助于構(gòu)建更簡(jiǎn)潔和可重用的代碼,參考 fast.ai AdamW/SGDW implementation( fastai/pull/46/files) 。固定指數(shù)移動(dòng)平均值最近的一些研究( Dozat and Manning, 201713、Laine and Aila, 201716)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),調(diào)低 2 值,影響了 Adam 方法中過(guò)去平方梯度的指數(shù)移動(dòng)平均值的貢獻(xiàn)度。一般來(lái)說(shuō), 2 的默認(rèn)值為 0.999,設(shè)置為 0.99 或 0.9 后,在不同任務(wù)中表現(xiàn)
7、更好,這表明可能存在指數(shù)移動(dòng)平均值的問(wèn)題。ICLR 2018 正在審核的一篇文章 On the Convergence of Adam andBeyond()研究了這個(gè)問(wèn)題,指出過(guò)去平方梯度的指數(shù)移動(dòng)平均值是自適應(yīng)學(xué)習(xí)率方法泛化能力不佳的另一個(gè)。自適應(yīng)學(xué)習(xí)速率方法的,是通過(guò)過(guò)去平方梯度的指數(shù)移動(dòng)平均值來(lái)更新參數(shù),例如 Adadelta, RMSprop 和 Adam。研究指數(shù)平均的貢獻(xiàn)度,這個(gè)思路的性很好,能防止學(xué)習(xí)率隨著訓(xùn)練而變得極小,這也是 Adagrad 方法的關(guān)鍵缺陷。但是,梯度的短期記憶性在其他情況下變成了阻礙。在 Adam 方法收斂到一個(gè)次優(yōu)解時(shí),我們觀察到一些小批次樣本貢獻(xiàn)了大幅
8、且有效的信息梯度,但是這種情況很少發(fā)生,指數(shù)平均后減小了它們的影響,導(dǎo)致模型收斂性差。作者給出了一個(gè)簡(jiǎn)單的凸優(yōu)化問(wèn)題,可以看到 Adam 方法中也存在這種現(xiàn)象。作者提出了一種新算法 AMSGrad 來(lái)解決這個(gè)問(wèn)題, 它使用過(guò)去平方梯度的最大值來(lái)更新參數(shù),而不是先前的指數(shù)平均。AMSGrad 方法的更新過(guò)程如下,這里不帶有偏差校正估計(jì): 實(shí)驗(yàn)表明,在小數(shù)據(jù)集和 CIFAR-10 數(shù)據(jù)集上,這種方法的性能比 Ada m 方法更好。調(diào)整學(xué)習(xí)率在許多情況下, 我們不需要改進(jìn)和調(diào)整模型結(jié)構(gòu), 而是該調(diào)整超參數(shù)。在語(yǔ)言建模中的一些最新研究表明,與更復(fù)雜的模型相比,調(diào)整 LSTM 參數(shù)20和正則化參數(shù)21就
9、可以得到最先進(jìn)的性能。在深度學(xué)習(xí)優(yōu)化中,一個(gè)重要的超參數(shù)就是學(xué)習(xí)率 。實(shí)際上,在 SG D 方法中,需要構(gòu)建一個(gè)合適的學(xué)習(xí)率退火方案,來(lái)得到一個(gè)良好的收斂最小值。人們會(huì)認(rèn)為,像 Adam 這樣的自適應(yīng)學(xué)習(xí)率方法,對(duì)不同的學(xué)習(xí)率更具有魯棒性,因?yàn)檫@些方法能自我更新學(xué)習(xí)率。但是,即使對(duì)于這些方法,好的學(xué)習(xí)率和最佳的學(xué)習(xí)率也可能有很大的差別( Andrej KarpathyVerified account 說(shuō)最佳學(xué)習(xí)率是 3e-4arpathy/status/)。Zhang 在 2017 年的一個(gè)研究表明2,在調(diào)整學(xué)習(xí)率退火方案和動(dòng)量參數(shù)后,該 SGD 方法的性能與 Adam 有得一拼,而且收斂速度
10、更快。另一方面,我們可能認(rèn)為 Adam 方法中學(xué)習(xí)率的自適應(yīng)性可能模仿了學(xué)習(xí)速率退火,但是一個(gè)明確的退火方案仍然是有幫助的。因?yàn)椋绻覀儼?SGD 方法中的學(xué)習(xí)率退火添加到 Adam 中,它能在表現(xiàn)得比 SGD 方法更好,且更快地收斂4。翻譯任務(wù)中事實(shí)上,學(xué)習(xí)率退火方案似乎是一種新的特征工程,因?yàn)槲覀儼l(fā)現(xiàn),改進(jìn)的學(xué)習(xí)率退火方案能模型的最終收斂性能。Vaswani 等人在 2017 年給出了一個(gè)有趣的例子14。在模型調(diào)參時(shí), 通常需要進(jìn)行大規(guī)模的超參數(shù)優(yōu)化,這個(gè)文章的創(chuàng)新點(diǎn)在把學(xué)習(xí)率退火方案當(dāng)作是要優(yōu)化的具體焦點(diǎn)。作者使用了 Adam方法,其中 1 =0.9,和非默認(rèn)參數(shù)2 =0.98、=10
11、- 9 ,這可以說(shuō)對(duì)學(xué)習(xí)率 來(lái)說(shuō)是最精細(xì)的退火方案之一: 其中 dm是模型參數(shù)的數(shù)目,且 warmup_steps 為 4000。Smith 等人在 2017 年的另一篇5揭示了學(xué)習(xí)率和批次大小間的一個(gè)有趣關(guān)聯(lián)。這兩個(gè)超參數(shù)通常被認(rèn)為是相互的, 但是他們發(fā)現(xiàn),減小學(xué)習(xí)率相當(dāng)于增加批次大小,而后者能提高并行訓(xùn)練速度。反過(guò)來(lái)想,我們可以減少模型更新次數(shù),并通過(guò)提高學(xué)習(xí)率和縮放批次大小來(lái)提高訓(xùn)練速度。這個(gè)發(fā)現(xiàn)影響到大規(guī)模深度學(xué)習(xí)的訓(xùn)練過(guò)程,可在不需要超參數(shù)調(diào)整的前提下,重新調(diào)整現(xiàn)有的訓(xùn)練計(jì)劃。熱重啟( warm restarts)帶重啟的 SGD 方法另一個(gè)最近提出的有效方法是 SGDR6, Los
12、hchilov 和 Hutter 用熱重啟方式來(lái)替代學(xué)習(xí)率退火制度,來(lái)改進(jìn) SGD 方法。在每次重啟時(shí),學(xué)習(xí)率初始化為某個(gè)值,然后逐漸減少。重要的是,這種重啟可隨時(shí)進(jìn)行, 因?yàn)閮?yōu)化不是從頭開始, 而是從模型在上一個(gè)步驟收斂的參數(shù)開始的。關(guān)鍵在于,通過(guò)一個(gè)積極的余弦退火方案來(lái)調(diào)整學(xué)習(xí)率,這會(huì)很快地降低學(xué)習(xí)率,如下所示: 其中 imin 和 im ax 是第 i 次訓(xùn)練時(shí)學(xué)習(xí)率的變化區(qū)間, Tcu r 表示從上次重啟后已完成的迭代次數(shù),且 Ti 規(guī)定了下一次重啟的迭代次數(shù)。與常規(guī)的學(xué)習(xí)率退火方案相比, 熱重啟方法( Ti =50, Ti=100 和 Ti=200) 的性能如圖 1 所示。圖 1:
13、加入熱重啟的學(xué)習(xí)率方法性能變化重啟后,用一個(gè)高的初始學(xué)習(xí)率能從根本上把參數(shù)從先前收斂的最小值彈射到損失函數(shù)曲面的不同區(qū)域。這種積極的退火機(jī)制使模型能快速收斂到一個(gè)新且更好的解決方案。作者通過(guò)觀察還發(fā)現(xiàn),使用熱重啟的隨機(jī)梯度下降方法的所需時(shí)間比學(xué)習(xí)率退火機(jī)制少了 24 倍,并能達(dá)到相當(dāng)或更好的性能。使用熱重啟的學(xué)習(xí)率退火也叫做循環(huán)變化學(xué)習(xí)率,最初由 Smith22提出。fast.ai 學(xué)生給出了另外兩篇文章,討論了熱重啟和循環(huán)變化學(xué)習(xí)率, 地址如下: ning-rate-5e99554f163b快照集成( Snapshot ensembles)快照集成是一種最近由 Huang 提出的巧妙方法7,
14、即在訓(xùn)練單個(gè)模型時(shí)使用熱重啟來(lái)組裝一個(gè)集合,且基本上無(wú)額外的代價(jià)。這種方法可以訓(xùn)練一個(gè)單模型,按照之前看到的余弦退火制度收斂,然后保存模型參數(shù),并進(jìn)行熱重啟,重復(fù)這些步驟 M 次。最后,所有保存的模型快照形成一個(gè)集合。在圖 2 中可以看到,常用的 SGD 優(yōu)化在誤差曲面上的性能與快照集成過(guò)程的性能差異。圖 2: SGD 與快照集成一般來(lái)說(shuō),集成是否取決于組合中每個(gè)模型的多樣性。因此,快照集成依賴于余弦退火方案的能力,使得模型在每次重啟后能夠收斂到不同的局部最優(yōu)值。作者證明,這在實(shí)踐中是成立的,在 CIFAR-10、CI FAR-100 和 SVHN 上取得了很好的效果。帶重啟的 Adam 方法
15、熱重啟最初在 Adam 方法中并不適用,因?yàn)樗乃p不正常。在固定Adam衰減后,Loshchilov 和 Hutter 在 2017 年同樣地把熱重啟擴(kuò)展到中。其中, im in = 0, im a x=1,得到: 建議開始時(shí)選取較小的 Ti(迭代次數(shù)在 1-10 之間),并在每次重啟時(shí)將其乘以一個(gè)系數(shù) Tm u l t ,如 2。學(xué)習(xí)優(yōu)化之一是 Andrychowicz 等人撰寫的 Learning to lear去年最有趣的n by gradient descent by gradient descent,也是 reddit 網(wǎng)友選出的“2016 年最佳”23。他們訓(xùn)練了 LSTM 優(yōu)化
16、器,用于在訓(xùn)練主要模型時(shí)更新參數(shù)。不幸的是,學(xué)習(xí)單獨(dú)的 LSTM 優(yōu)化器,或是使用預(yù)先訓(xùn)練好的 LSTM 優(yōu)化器進(jìn)行優(yōu)化,都會(huì)大大增加模型訓(xùn)練的復(fù)雜度。今年還有一篇很有影響力的“l(fā)earning to learn”,使用 LSTM 來(lái)生成特定領(lǐng)域語(yǔ)言的模型結(jié)構(gòu)24。雖然搜索過(guò)程需要大量的, 但是所發(fā)現(xiàn)的結(jié)構(gòu)可以用來(lái)取代已有的結(jié)構(gòu)。這個(gè)搜索過(guò)程已經(jīng)被證明是有效的,并且在語(yǔ)言建模方面取得最先進(jìn)的效果,并且在 CIFAR-10 上取得了很有競(jìng)爭(zhēng)力的結(jié)果。同樣的搜索策略也可以應(yīng)用于任何已經(jīng)被手工定義其關(guān)鍵過(guò)程的其他領(lǐng)域,其中一個(gè)領(lǐng)域就是深度學(xué)習(xí)的優(yōu)化算法。正如以前所看到的,優(yōu)化算法十分符合這個(gè)規(guī)則:它
17、們都使用了過(guò)去梯度的指數(shù)移動(dòng)平均值( 如動(dòng)量) 和過(guò)去平方梯度的指數(shù)移動(dòng)平均值( 如 Adadelta, RMSpro p, Adam)的組合25。Bello 等人8定義了一個(gè)特定領(lǐng)域的語(yǔ)言,由對(duì)優(yōu)化有用的基元組成, 如這些指數(shù)移動(dòng)平均值。然后,他們從所有可能的更則空間中采樣更則,使用此更則來(lái)訓(xùn)練模型,并基于測(cè)試集上訓(xùn)練模型的性能來(lái)更新 RNN器。完整流程如圖 3 所示。圖 3: 神經(jīng)優(yōu)化搜索特別是,他們還定義了兩個(gè)更新方程,即 PowerSign 和 AddSign。Po werSign 的更新公式如下: 其中, 是一個(gè)超參數(shù), 通常設(shè)為 e 或者 2; f(t)設(shè)為 1, 或是衰減函數(shù)(隨
18、著時(shí)間步 t 重新執(zhí)行線性、循環(huán)或衰減),其中 mt 是過(guò)去梯度的移動(dòng)平均值。通常,設(shè)置 = e,且無(wú)衰減。注意到,更新通過(guò) f( t ) 或 1 / f ( t ) 來(lái)縮放梯度,取決于梯度方向和移動(dòng)平均值是否一致。這表明,這種類似動(dòng)量的過(guò)去梯度和當(dāng)前梯度之間的相似性是優(yōu)化深度學(xué)習(xí)模型的關(guān)鍵信息。AddSign 定義如下: 其中, 通常設(shè)置為 1 或 2,與上面類似,這次的尺度更新為 +f(t)或 f(t),取決于梯度方向的一致性。作者指出, PowerSign 和 AddSign在 CIFAR-10 上的表現(xiàn)優(yōu)于 Adam、RMSprop 和帶動(dòng)量 SGD 方法,并能很好地轉(zhuǎn)換到其他任務(wù)中,如 ImageNet 分類和翻譯。理解泛化優(yōu)化問(wèn)題與泛化能力是密切相關(guān)的,因?yàn)槟P褪諗康淖钚≈禌Q定了模型的泛化能力。因此,優(yōu)化問(wèn)題的進(jìn)展與理解這種極小值泛化能力的理論進(jìn)展是密切相關(guān)的,且能更深入地理解深度學(xué)習(xí)中的泛化能力。但是,我們對(duì)深度神經(jīng)網(wǎng)絡(luò)泛化能力的理解仍然很淺顯。最近的研究表明,可能是局部極小值的數(shù)量隨參數(shù)數(shù)量呈指數(shù)型增長(zhǎng)9。考慮到目前深度學(xué)習(xí)結(jié)構(gòu)中參數(shù)數(shù)量巨大,這樣的模型能收斂且泛化能力較好,特別是考慮到它們可以完全記住隨機(jī)輸入10,這似乎看起來(lái)很神奇10。Keskar 等人11認(rèn)為最小值的指出,批次梯度下降所找到的是泛化能
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 供應(yīng)鏈管理數(shù)據(jù)治理組織架構(gòu)和崗位職責(zé)
- 五年級(jí)上學(xué)期班主任育人工作具體計(jì)劃
- 家政服務(wù)職業(yè)健康保證體系與措施
- 九年級(jí)上學(xué)期語(yǔ)文課程教學(xué)計(jì)劃
- 八年級(jí)年級(jí)組社會(huì)實(shí)踐調(diào)研計(jì)劃
- 2025年教師國(guó)際教育讀書計(jì)劃
- 醫(yī)療機(jī)構(gòu)勞務(wù)派遣服務(wù)方案及流程
- 學(xué)校施工期間師生交通秩序安全防范措施
- 北師大版五年級(jí)數(shù)學(xué)上冊(cè)家校共育教學(xué)計(jì)劃
- 招標(biāo)代理部門工作職責(zé)詳解
- 律師事務(wù)所客戶信息保密規(guī)定
- 云南楚雄州金江能源集團(tuán)有限公司招聘筆試真題2024
- 2025-2030中國(guó)動(dòng)力電池回收利用技術(shù)路線與經(jīng)濟(jì)性評(píng)估分析研究報(bào)告
- 2025年深圳中考物理試卷真題(含答案)
- 互聯(lián)網(wǎng)行業(yè)產(chǎn)品經(jīng)理專業(yè)顧問(wèn)聘用協(xié)議
- 2025年 東北石油大學(xué)招聘考試筆試試題附答案
- 2025年安徽省中考地理真題試卷(含答案)
- 人教版2025年八年級(jí)英語(yǔ)下學(xué)期期末總復(fù)習(xí)(專題訓(xùn)練)專題01單項(xiàng)選擇【期末易錯(cuò)100題】(人教版)(學(xué)生版+解析)
- 企業(yè)財(cái)務(wù)內(nèi)控管理制度
- 2025以色列與伊朗沖突全面解析課件
- 警察抓捕教學(xué)課件
評(píng)論
0/150
提交評(píng)論