《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件 第5、6章 Hopfield神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò)_第1頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件 第5、6章 Hopfield神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò)_第2頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件 第5、6章 Hopfield神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò)_第3頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件 第5、6章 Hopfield神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò)_第4頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件 第5、6章 Hopfield神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩77頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)05Hopfield神經(jīng)網(wǎng)絡(luò)目錄離散型Hopfield神經(jīng)網(wǎng)絡(luò)010203連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)應(yīng)用實(shí)例01離散型Hopfield神經(jīng)網(wǎng)絡(luò)

離散型Hopfield神經(jīng)網(wǎng)絡(luò)由于Hopfield早期提出的網(wǎng)絡(luò)是二值型,所以該網(wǎng)絡(luò)也稱為離散Hopfield神經(jīng)網(wǎng)絡(luò)(discreteHopfieldneuralnetwork,簡稱DHNN)。DHNN具有豐富的動(dòng)力學(xué)行為,適用于復(fù)雜的非線性系統(tǒng),已經(jīng)廣泛地應(yīng)用在不同的領(lǐng)域,如模式識(shí)別、圖像處理和信號(hào)檢測(cè)等方面。DHNN是一種單層的全反饋網(wǎng)絡(luò)。各個(gè)神經(jīng)元之間形成互連的結(jié)構(gòu),每個(gè)神經(jīng)元的輸出都成為其他神經(jīng)元的輸入,每個(gè)神經(jīng)元的輸入又來自其他神經(jīng)元的輸出,信息經(jīng)過其他神經(jīng)元后又反饋回自身,其網(wǎng)狀結(jié)構(gòu)如圖5-1所示。圖5-1Hopfield神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖301離散型Hopfield神經(jīng)網(wǎng)絡(luò)

離散型Hopfield神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與工作原理DHNN中的每個(gè)神經(jīng)元將當(dāng)前的輸出通過連接權(quán)值反饋給所有的神經(jīng)元,得到的結(jié)果作為下一時(shí)刻網(wǎng)絡(luò)的輸入。DHNN的模型如圖5-2所示。圖5-2離散Hopfield神經(jīng)網(wǎng)絡(luò)模型DHNN是二值網(wǎng)絡(luò),每個(gè)神經(jīng)元具有1和-1(或1和0)兩種狀態(tài),分別表示激活和抑制。如果神經(jīng)元的輸出大于閾值,則最終輸出為1,否則,最終輸出為-1。從輸入到輸出會(huì)產(chǎn)生一定的延時(shí)z-1401離散型Hopfield神經(jīng)網(wǎng)絡(luò)對(duì)于有n個(gè)神經(jīng)元的DHNN,第i個(gè)神經(jīng)元在k時(shí)刻的狀態(tài)可以表示為,并且,其中。第i個(gè)神經(jīng)元經(jīng)過網(wǎng)絡(luò)運(yùn)行后,該神經(jīng)元節(jié)點(diǎn)的輸出為,則可以表示為:式中,

為外部輸入,;表示第i個(gè)神經(jīng)元與第j個(gè)神經(jīng)元之間的連接權(quán)值。神經(jīng)元節(jié)點(diǎn)的輸出經(jīng)過激活函數(shù)后作為k+1時(shí)刻網(wǎng)絡(luò)的輸出,即k+1時(shí)刻網(wǎng)絡(luò)的狀態(tài),則第i個(gè)神經(jīng)元在k+1時(shí)刻的狀態(tài)為可以表示為:式中,

為激活函數(shù),DHNN在此選用符號(hào)函數(shù),保證最終的輸出為二值型。501離散型Hopfield神經(jīng)網(wǎng)絡(luò)DHNN的網(wǎng)絡(luò)狀態(tài)是所有神經(jīng)元狀態(tài)的集合,因此,網(wǎng)絡(luò)狀態(tài)可以采用矩陣形式表示。設(shè)整個(gè)網(wǎng)絡(luò)在k時(shí)刻的狀態(tài)為

,則

可以表示為:整個(gè)網(wǎng)絡(luò)在k+1時(shí)刻的輸出狀態(tài)可以用表示為:式中,

為權(quán)值矩陣。網(wǎng)絡(luò)的工作方式有兩種,包括異步工作方式和同步工作方式(1)同步工作方式網(wǎng)絡(luò)的同步工作方式是一種并行方式,所有神經(jīng)元同時(shí)調(diào)整狀態(tài),即601離散型Hopfield神經(jīng)網(wǎng)絡(luò)(2)異步工作方式網(wǎng)絡(luò)的異步工作方式是一種串行方式。網(wǎng)絡(luò)運(yùn)行時(shí)每次只有一個(gè)神經(jīng)元進(jìn)行狀態(tài)的調(diào)整計(jì)算,其它神經(jīng)元的狀態(tài)均保持不變,即神經(jīng)元狀態(tài)的調(diào)整次序可以按某種規(guī)定的次序進(jìn)行,也可以隨機(jī)選定。每次神經(jīng)元在調(diào)整狀態(tài)時(shí),根據(jù)其當(dāng)前凈輸人值的正負(fù)決定下一時(shí)刻的狀態(tài),因此其狀態(tài)可能會(huì)發(fā)生變化也可能保持原狀。下次調(diào)整其它神經(jīng)元狀態(tài)時(shí),本次的調(diào)整結(jié)果即在下一個(gè)神經(jīng)元的凈輸入中發(fā)揮作用。701離散型Hopfield神經(jīng)網(wǎng)絡(luò)反饋網(wǎng)絡(luò)是一種能存儲(chǔ)若干個(gè)預(yù)先設(shè)置的穩(wěn)定點(diǎn)(狀態(tài))的網(wǎng)絡(luò)。運(yùn)行時(shí),當(dāng)向該網(wǎng)絡(luò)作用一個(gè)起原始推動(dòng)作用的初始輸人模式后,網(wǎng)絡(luò)便將其輸出反饋回來作為下次的輸入。經(jīng)若干次循環(huán)(迭代)之后,在網(wǎng)絡(luò)結(jié)構(gòu)滿足一定條件的前提下,網(wǎng)絡(luò)最終將會(huì)穩(wěn)定在某一預(yù)先設(shè)定的穩(wěn)定點(diǎn)。網(wǎng)絡(luò)達(dá)到穩(wěn)定時(shí)的狀態(tài)X,稱為網(wǎng)絡(luò)的吸引子,下面給出吸引子的定義。定義5-1若網(wǎng)絡(luò)的狀態(tài)X滿足X=f(WX-B),則稱X為網(wǎng)絡(luò)的吸引子。一個(gè)動(dòng)力學(xué)系統(tǒng)的最終行為是由它的吸引子決定的,吸引子的存在為信息的分布存儲(chǔ)記憶和神經(jīng)優(yōu)化計(jì)算提供了基礎(chǔ)。如果把吸引子視為問題的解,那么從初態(tài)朝吸引子演變的過程便是求解計(jì)算的過程。

吸引子801離散型Hopfield神經(jīng)網(wǎng)絡(luò)

離散型Hopfield神經(jīng)網(wǎng)絡(luò)穩(wěn)定性當(dāng)任一初始狀態(tài)輸入DHNN中,經(jīng)過有限次迭代,在某一有限時(shí)刻,網(wǎng)絡(luò)的狀態(tài)不再變化,則認(rèn)為網(wǎng)絡(luò)是穩(wěn)定的。假設(shè)k時(shí)刻的網(wǎng)絡(luò)狀態(tài)為X(k),如果在k+1時(shí)刻的網(wǎng)絡(luò)狀態(tài)X(k+1),滿足則DHNN是穩(wěn)定的。1983年,Coben和Grossberg給出了Hopfield神經(jīng)網(wǎng)絡(luò)穩(wěn)定的充分條件:當(dāng)Hopfield神經(jīng)網(wǎng)絡(luò)的權(quán)值矩陣為對(duì)稱矩陣,且對(duì)角線為0,則該網(wǎng)絡(luò)是穩(wěn)定的。式中,表示第i個(gè)神經(jīng)元和第j個(gè)神經(jīng)元之間的連接權(quán)值。901離散型Hopfield神經(jīng)網(wǎng)絡(luò)在動(dòng)力學(xué)系統(tǒng)中,穩(wěn)定狀態(tài)是系統(tǒng)的某種形式的能量函數(shù)在系統(tǒng)運(yùn)動(dòng)過程中,其能量值不斷減小,最后達(dá)到最小值。穩(wěn)定的DHNN就是網(wǎng)絡(luò)的能量函數(shù)達(dá)到最小。DHNN的工作過程是狀態(tài)演化的過程,當(dāng)給定初始狀態(tài),網(wǎng)絡(luò)就按照能量減少的方式進(jìn)行演化,直至到達(dá)最小即穩(wěn)定狀態(tài)。在此引入Lyapunov函數(shù)作為能量函數(shù),k時(shí)刻的能量函數(shù)E可表示為:因此,可以得到所以,DHNN的能量函數(shù)E是有界的。1001離散型Hopfield神經(jīng)網(wǎng)絡(luò)DHNN的穩(wěn)定性需要能量函數(shù)逐漸減少并達(dá)到最小值。下面給出DHNN穩(wěn)定性引理。定理5-1對(duì)于DHNN,如果按照異步方式進(jìn)行演化,并且連接權(quán)值矩陣W對(duì)稱且對(duì)角線元素非負(fù),即,,則對(duì)于任意初始狀態(tài),網(wǎng)絡(luò)最終都將收斂到一個(gè)吸引子。證明如下:可表示為:1101離散型Hopfield神經(jīng)網(wǎng)絡(luò)進(jìn)一步地,可得:根據(jù)定理5-1中的條件:連接權(quán)值矩陣W為對(duì)稱矩陣,即又有神經(jīng)元的輸入為:下面對(duì)進(jìn)行討論,因?yàn)?,所以?1)若,則,即;1201離散型Hopfield神經(jīng)網(wǎng)絡(luò)(2)若,,則,,即;(3)若,,則,,即;因此,可證

,由于E有界,則網(wǎng)絡(luò)總是向能量函數(shù)減少的方向演化,最終一定能達(dá)到某一穩(wěn)定點(diǎn)。定理5-2對(duì)于DHNN,如果按照同步方式進(jìn)行演化,并且連接權(quán)值矩陣W為非負(fù)定對(duì)稱陣,則對(duì)于任意初始狀態(tài),網(wǎng)絡(luò)最終都將收斂到一個(gè)吸引子。證明:k時(shí)刻的網(wǎng)絡(luò)狀態(tài)為X(k),則式(9)可轉(zhuǎn)化為1301離散型Hopfield神經(jīng)網(wǎng)絡(luò)因此,為:定理5-1中已經(jīng)證明了

,由此可以得到。1401離散型Hopfield神經(jīng)網(wǎng)絡(luò)根據(jù)定理5-2的條件:連接權(quán)值矩陣W為非負(fù)定對(duì)稱陣,由線性代數(shù)矩陣原理可知:。因此可以證明,同時(shí)E有界,即系統(tǒng)一定可以收斂到某一穩(wěn)定點(diǎn)。因此,DHNN在滿足一定的條件時(shí),經(jīng)過不斷地迭代演化最終可以達(dá)到穩(wěn)定狀態(tài)。如圖5-3所示,當(dāng)前的網(wǎng)絡(luò)狀態(tài)沿著能量遞減的方向,經(jīng)過不斷地演化,最終將達(dá)到某個(gè)穩(wěn)定點(diǎn)。圖5-3穩(wěn)定狀態(tài)示意圖1501離散型Hopfield神經(jīng)網(wǎng)絡(luò)

聯(lián)想存儲(chǔ)DHNN的自反饋機(jī)制使得網(wǎng)絡(luò)能夠?qū)⑤斎胗成涞筋A(yù)先設(shè)定的狀態(tài),從而實(shí)現(xiàn)聯(lián)想功能。若把需記憶的樣本信息存儲(chǔ)于網(wǎng)絡(luò)不同的吸引子中,當(dāng)輸入含有部分記憶信息的樣本時(shí),網(wǎng)絡(luò)的演變過程便是從部分信息尋找全部信息,即聯(lián)想回憶的過程。聯(lián)想階段是Hopfield神經(jīng)網(wǎng)絡(luò)最具特色的地方,當(dāng)網(wǎng)絡(luò)接收到一個(gè)不完全相同的輸入時(shí),它會(huì)嘗試將其映射到最接近的記憶模式,從而實(shí)現(xiàn)聯(lián)想功能。能使網(wǎng)絡(luò)穩(wěn)定在同一吸引子的所有初態(tài)的集合,稱為該吸引子的吸引域。給出關(guān)于吸引域的兩個(gè)定義。定義5-2若是吸引子,若存在一個(gè)調(diào)整次序,使網(wǎng)絡(luò)可以從狀態(tài)演變到,則稱弱吸引到;若對(duì)于任意調(diào)整次序,網(wǎng)絡(luò)都可以從狀態(tài)演變到,則稱X

強(qiáng)吸引到。1601離散型Hopfield神經(jīng)網(wǎng)絡(luò)定義5-3

若對(duì)某些,有弱吸引到吸引子,則稱這些的集合為的弱吸引域;若對(duì)于某些,有強(qiáng)吸引到吸引子,則稱這些的集合為的強(qiáng)吸引域。欲使反饋網(wǎng)絡(luò)具有聯(lián)想存儲(chǔ)的能力,每個(gè)吸引子都應(yīng)該具有一定的吸引域。只有這樣,對(duì)于帶有一定噪聲或缺損的初始樣本,網(wǎng)絡(luò)才能經(jīng)過動(dòng)態(tài)演變穩(wěn)定到某一吸引子狀態(tài),從而實(shí)現(xiàn)正確聯(lián)想。反饋網(wǎng)絡(luò)設(shè)計(jì)的目的就是使網(wǎng)絡(luò)能落到期望的穩(wěn)定點(diǎn)(問題的解)上,并且還要具有盡可能大的吸引域,以增強(qiáng)聯(lián)想功能。當(dāng)網(wǎng)絡(luò)規(guī)模一定時(shí),所能記憶的模式是有限的。對(duì)于所容許的聯(lián)想出錯(cuò)率,網(wǎng)絡(luò)所能存儲(chǔ)的最大模式數(shù)

稱為網(wǎng)絡(luò)容量。網(wǎng)絡(luò)容量與網(wǎng)絡(luò)的規(guī)模、算法以及記憶模式向量的分布都有關(guān)系。1701離散型Hopfield神經(jīng)網(wǎng)絡(luò)DHNN存儲(chǔ)容量的有關(guān)定理為:定理5-3若DHNN的規(guī)模為n,且權(quán)矩陣主對(duì)角線元素為0,則該網(wǎng)絡(luò)的信息容量上界為n。定理5-4若P個(gè)記憶模式

(),兩兩正交,,且權(quán)值矩陣W按式(16)得到,則所有P個(gè)記憶模式都是DHNN的吸引子。定理5-4若P個(gè)記憶模式

(),兩兩正交,,且權(quán)值矩陣W按式(15)得到,則所有P個(gè)記憶模式都是DHNN的吸引子。由以上定理可知,當(dāng)用外積和設(shè)計(jì)DHNN時(shí),如果記憶模式都滿足兩兩正交的條件,則規(guī)模為n維的網(wǎng)絡(luò)最多可記憶n個(gè)模式。一般情況下,模式樣本不可能都滿足兩兩正交的條件,對(duì)于非正交模式,網(wǎng)絡(luò)的信息存儲(chǔ)容量會(huì)大大降低。1801離散型Hopfield神經(jīng)網(wǎng)絡(luò)

外積和法在DHNN中,外積和法是一種常用于設(shè)計(jì)網(wǎng)絡(luò)連接權(quán)值的學(xué)習(xí)算法。其為Hebb學(xué)習(xí)規(guī)則的一種特殊情況。設(shè)給定P個(gè)模式樣本(),,并設(shè)樣本兩兩正交,且,則網(wǎng)絡(luò)連接權(quán)值可表示為樣本的外積和若取,上式應(yīng)寫為式中,I為單位矩陣。上式可寫成分量元素形式,有1901離散型Hopfield神經(jīng)網(wǎng)絡(luò)按以上外積和規(guī)則設(shè)計(jì)的權(quán)值矩陣必然滿足對(duì)稱性要求。下面檢驗(yàn)所給樣本是否為吸引子。因?yàn)镻個(gè)樣本(),,是兩兩正交的,有所以2001離散型Hopfield神經(jīng)網(wǎng)絡(luò)因?yàn)?,所以有可見給定樣本()為吸引子。需要指出的是,有些非給定樣本也是網(wǎng)絡(luò)的吸引子,他們并不是網(wǎng)絡(luò)設(shè)計(jì)所要求的解,這種吸引子稱為偽吸引子。例題設(shè)有一個(gè)DHNN,神經(jīng)元個(gè)數(shù)n=4,閾值,向量、和權(quán)值矩陣W分別為計(jì)算神經(jīng)網(wǎng)絡(luò)的穩(wěn)態(tài)結(jié)果,并考察其是否具有聯(lián)想記憶能力。2101離散型Hopfield神經(jīng)網(wǎng)絡(luò)解:將向量、和權(quán)值矩陣W帶入式(5-4),可得因此,和為網(wǎng)絡(luò)的吸引子,即為網(wǎng)絡(luò)達(dá)到穩(wěn)態(tài)時(shí)的狀態(tài)。設(shè)有樣本、、,分別令其為網(wǎng)絡(luò)輸入初態(tài),考察網(wǎng)絡(luò)收斂的穩(wěn)態(tài)。2201離散型Hopfield神經(jīng)網(wǎng)絡(luò)令初態(tài),則令初態(tài),則令初態(tài),則由上述驗(yàn)證可知,網(wǎng)絡(luò)從任意狀態(tài)出發(fā),經(jīng)過幾次狀態(tài)更新后,都將達(dá)到穩(wěn)態(tài),網(wǎng)絡(luò)具有聯(lián)想記憶的能力。23目錄離散型Hopfield神經(jīng)網(wǎng)絡(luò)010203連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)應(yīng)用實(shí)例2402連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)

連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)與DHNN不同,連續(xù)Hopfield神經(jīng)網(wǎng)絡(luò)(ContinuousHopfieldneuralnetwork,CHNN)在時(shí)間上是連續(xù)的,是以模擬量作為輸入輸出的。CHNN是由非線性元件構(gòu)成的反饋系統(tǒng),具有全連接的網(wǎng)絡(luò)結(jié)構(gòu),是一種典型的遞歸神經(jīng)網(wǎng)絡(luò)。在拓?fù)浣Y(jié)構(gòu)上,CHNN和DHNN的結(jié)構(gòu)類似。CHNN主要有以下特點(diǎn):神經(jīng)元之間按照漸進(jìn)方式工作,并產(chǎn)生動(dòng)作電位;神經(jīng)元之間的連接有興奮和抑制,主要通過反饋來實(shí)現(xiàn);準(zhǔn)確地保留了生物神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)特性和非線性特性;網(wǎng)絡(luò)的工作方式為并行方式,可以同步處理數(shù)據(jù)。2502連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)

連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與工作原理CHNN由模擬電子線路連接實(shí)現(xiàn),每個(gè)神經(jīng)元由一個(gè)運(yùn)算放大器、電阻、電容等元件構(gòu)成。輸入一方面來自輸出的反饋,另一方面來自以電流形式從外界接入的輸入。CHNN的神經(jīng)元模型如圖5-4所示。圖5-4連續(xù)Hopfield神經(jīng)網(wǎng)絡(luò)的神經(jīng)元模型圖中,為運(yùn)算放大器對(duì)應(yīng)的電阻,是運(yùn)算放大器對(duì)應(yīng)的電容。是運(yùn)算放大器,模擬神經(jīng)元的非線性飽和特性。,,…,是輸入側(cè)的電阻,模擬神經(jīng)元之間的突觸特性。,,…,是神經(jīng)元的輸入,是神經(jīng)元的輸出,是外部電流。2602連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)圖5-5連續(xù)Hopfield神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)CHNN具有單層的神經(jīng)元,是全連接的反饋型神經(jīng)網(wǎng)絡(luò),每個(gè)神經(jīng)元的輸出都反饋到其輸入,輸出層的傳遞函數(shù)為連續(xù)函數(shù)。采用模擬電路實(shí)現(xiàn)的CHNN的結(jié)構(gòu)如圖5-5所示。假設(shè)CHNN中的運(yùn)算放大器為理想放大器,根據(jù)基爾霍夫定律,可以得到第i個(gè)神經(jīng)元的輸入方程為:式中,n為神經(jīng)元的個(gè)數(shù),uj為運(yùn)算放大器的輸入電壓,Rj0為運(yùn)算放大器的等效電阻.2702連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)神經(jīng)元之間的連接權(quán)值,具體表示為:令,那么式(21)可以簡化為:對(duì)于CHNN的第i個(gè)神經(jīng)元,經(jīng)過運(yùn)算放大器的輸出vi可表示如下:式中,為激活函數(shù)。2802連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)由于CHNN的輸出為連續(xù)時(shí)間變化,CHNN中常用的激活函數(shù)一般有兩種形式,包括Sigmoid函數(shù)和雙曲正切函數(shù)。從CHNN的模型中可以看出,該網(wǎng)絡(luò)由一些元件組成的模擬電子線路連接而成,網(wǎng)絡(luò)的輸入和輸出都是連續(xù)時(shí)間變化的,從輸入到輸出由具有非線性飽和特性的運(yùn)算放大器來實(shí)現(xiàn)。當(dāng)網(wǎng)絡(luò)有輸入時(shí),通過網(wǎng)絡(luò)的運(yùn)行進(jìn)行輸出,并將輸出值作為網(wǎng)絡(luò)的輸入繼續(xù)運(yùn)行,直至網(wǎng)絡(luò)最終的輸出達(dá)到穩(wěn)定,停止運(yùn)行。2902連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)

連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)穩(wěn)定性CHNN是非線性動(dòng)力學(xué)系統(tǒng),具有反饋型的網(wǎng)絡(luò)結(jié)構(gòu)。對(duì)于反饋型神經(jīng)網(wǎng)絡(luò)來講,網(wǎng)絡(luò)的穩(wěn)定性至關(guān)重要。網(wǎng)絡(luò)從初始狀態(tài)開始運(yùn)行,經(jīng)過有限次迭代,當(dāng)網(wǎng)絡(luò)的狀態(tài)不再改變,則認(rèn)為網(wǎng)絡(luò)是穩(wěn)定的。穩(wěn)定的網(wǎng)絡(luò)從初始狀態(tài)開始演化,沿著能量減小的方向演化,最終收斂到某一穩(wěn)定點(diǎn)。在式(5-21)中采用非線性微分方程描述了CHNN,網(wǎng)絡(luò)的穩(wěn)定性需要在此基礎(chǔ)上通過構(gòu)造能量函數(shù)E來證明。定義CHNN的能量函數(shù)為3002連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)寫成相應(yīng)的向量式為式中,為神經(jīng)元激活函數(shù)的反函數(shù)。CHNN的能量函數(shù)用來表征網(wǎng)絡(luò)的狀態(tài)變化趨勢(shì),其物理意義是:在漸進(jìn)穩(wěn)定點(diǎn)的吸引域內(nèi),離吸引點(diǎn)較遠(yuǎn)的狀態(tài)具有較大的能量,由于能量函數(shù)是單調(diào)下降,使?fàn)顟B(tài)的運(yùn)動(dòng)逐漸趨近于吸引點(diǎn),直至達(dá)到穩(wěn)定點(diǎn)。定理5-6若神經(jīng)元的激活函數(shù)存在反函數(shù),且是單調(diào)連續(xù)遞增的,同時(shí)網(wǎng)絡(luò)權(quán)值對(duì)稱,即,則由任意初態(tài)開始,CHNN的能量函數(shù)總是單調(diào)遞減的,即,當(dāng)且僅當(dāng)時(shí),有,因此網(wǎng)絡(luò)最終能夠達(dá)到穩(wěn)態(tài)。3102連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)證明:將能量函數(shù)對(duì)時(shí)間求導(dǎo),可得由式(25)和及網(wǎng)絡(luò)的對(duì)稱性,對(duì)神經(jīng)元j有將式(28)代入式(27),并考慮式(23),可整理為3202連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)可以看出,式(29)中單調(diào)遞增函數(shù)

故有只有對(duì)于所有j均滿足時(shí),才有。在運(yùn)算放大器接近理想運(yùn)放時(shí),積分項(xiàng)可忽略不計(jì),則能量函數(shù)為由定理5-6可知,隨著狀態(tài)的演變,網(wǎng)絡(luò)的能量總是降低的。只有當(dāng)網(wǎng)絡(luò)中所有節(jié)點(diǎn)的狀態(tài)不再改變時(shí),能量才不再變化,此時(shí)到達(dá)能量的某一局部極小點(diǎn)或全局最小點(diǎn),該能量點(diǎn)對(duì)應(yīng)著網(wǎng)絡(luò)的某一個(gè)穩(wěn)定狀態(tài)。為保證網(wǎng)絡(luò)的穩(wěn)定性,要求網(wǎng)絡(luò)的結(jié)構(gòu)必須對(duì)稱,否則運(yùn)行中可能出現(xiàn)極限環(huán)或混沌狀態(tài)。33目錄離散型Hopfield神經(jīng)網(wǎng)絡(luò)010203連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)應(yīng)用實(shí)例3403應(yīng)用實(shí)例

Hopfield神經(jīng)網(wǎng)絡(luò)求解旅行商問題旅行商(TravelingSalesmanProblem,TSP)問題是一種典型的組合優(yōu)化問題。假設(shè)有n個(gè)城市A,B,C,…,城市之間的相互距離可以表示為。解決TSP問題就是尋找遍歷n個(gè)城市的最短路徑。該路徑經(jīng)過每個(gè)城市,并返回起始城市,形成一個(gè)閉合的路徑。采用CHNN解決TSP問題可以并行處理數(shù)據(jù),可以避免“組合爆炸”問題。為了將TSP問題映射到網(wǎng)絡(luò)的動(dòng)態(tài)過程中,將城市的狀態(tài)通過換位矩陣表示。假設(shè)要訪問5個(gè)城市A、B、C、D和E,每次只能訪問一個(gè)城市,即矩陣的每行和每列只能有一個(gè)城市被訪問。3503應(yīng)用實(shí)例如訪問的路徑為A→E→B→D→C,則具體的表示如表1所示。城市ABCDE110000200001301000400010500100表1換位矩陣對(duì)于n個(gè)城市的TSP問題,全部n行的所有元素按順序兩兩相乘之和為0,即3603應(yīng)用實(shí)例此外,全部n列的所有元素按順序兩兩相乘之和為0,即定義能量函為數(shù)E1為式中,A和B為正常數(shù)。換行矩陣的每行和每列都只能有一個(gè)1,其余為0,矩陣中1的和為n,因此需要滿足以下約束條件3703應(yīng)用實(shí)例定義能量函為數(shù)E2為式中,C為正常數(shù)。TSP問題的目標(biāo)是遍歷所有的城市后得到一個(gè)最短路徑,可以表示為式中,D為正常數(shù);dxy為城市x與城市y之間的距離。綜上,可得TSP問題的能量函數(shù)為3803應(yīng)用實(shí)例具體為:將式(38)與式(25)給出的能量函數(shù)形式對(duì)應(yīng),應(yīng)使神經(jīng)元xi和yi之間的權(quán)值和外部輸入的偏置按下式給出式中,,。3903應(yīng)用實(shí)例網(wǎng)絡(luò)構(gòu)成后,給定一個(gè)隨機(jī)的初始輸入,便有一個(gè)穩(wěn)定狀態(tài)對(duì)應(yīng)于一個(gè)旅行路線,不同的初始輸入所得到的旅行路線不同,這些路線都是較佳和最佳的。將式(39)代入CHNN運(yùn)行方程式,可得式中,u0為初始輸入。4003應(yīng)用實(shí)例本實(shí)驗(yàn)選擇10個(gè)城市進(jìn)行測(cè)試。城市的狀態(tài)對(duì)應(yīng)于Hopfield神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的狀態(tài),當(dāng)能量函數(shù)為最小值時(shí),即可得到最優(yōu)路徑。首先確定城市的位置和彼此之間的距離。隨機(jī)選取兩個(gè)城市作為起點(diǎn)和終點(diǎn),起點(diǎn)是城市8,終點(diǎn)是城市10。圖5-6初始路徑通過隨機(jī)運(yùn)行產(chǎn)生初始路徑,如圖5-6所示。圖中,圓點(diǎn)代表了十個(gè)城市。從圖5-6可以看出,從起點(diǎn)城市8到終點(diǎn)城市10,期間經(jīng)歷的路徑是8→9→2→4→6→7→1→5→10→3→8。該隨機(jī)路徑產(chǎn)生的最終距離為5.5852。該距離是隨機(jī)路徑規(guī)劃產(chǎn)生的,不一定是最優(yōu)路徑。4103應(yīng)用實(shí)例圖5-7最優(yōu)路徑采用CHNN對(duì)這10個(gè)城市進(jìn)行路徑規(guī)劃,使其產(chǎn)生最優(yōu)路徑,即得到路徑的最優(yōu)解。仍然選定城市8為起始城市,城市10為終點(diǎn)城市。規(guī)劃后的結(jié)果如圖7所示。當(dāng)經(jīng)過所有的城市后,期望總距離達(dá)到最低。通過CHNN得到的最優(yōu)路徑如圖5-7所示。從起點(diǎn)到終點(diǎn),最后的路徑是8→7→1→2→3→5→6→4→9→10→8,最后的距離為2.9137。由此可見,通過CHNN的運(yùn)行,最終得到10個(gè)城市的路徑。4203應(yīng)用實(shí)例圖5-8能量函數(shù)的變化圖5-8對(duì)10個(gè)城市的路徑規(guī)劃過程中的能量函數(shù)的變化進(jìn)行統(tǒng)計(jì)。可以看出,隨著迭代次數(shù)的逐漸增大,能量函數(shù)逐漸減少。在最初的20次迭代中,能量函數(shù)迅速減少。隨著迭代次數(shù)的逐漸增加,能量函數(shù)變化緩慢。能量函數(shù)從151.3逐漸收斂到1.564,可以認(rèn)為1.564近似接近于零,從而網(wǎng)絡(luò)得到最優(yōu)解。在網(wǎng)絡(luò)的運(yùn)行過程中,通過不斷地調(diào)整使能量函數(shù)逐漸減少,逐漸趨于最小,從而得到最優(yōu)路徑。隨著迭代次數(shù)的增加,能量函數(shù)減小。43人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)06長短期記憶網(wǎng)絡(luò)目錄遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)0102長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理03超參數(shù)對(duì)長短期記憶神經(jīng)網(wǎng)絡(luò)性能影響04長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法05應(yīng)用實(shí)例:電力負(fù)荷預(yù)測(cè)01遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork,FNN)是一種由多個(gè)神經(jīng)元層次組成的網(wǎng)絡(luò)結(jié)構(gòu),其中信息從輸入層逐層傳遞到各隱含層,最終到達(dá)輸出層。該網(wǎng)絡(luò)的處理過程具有明確的方向性,在這種結(jié)構(gòu)中,除輸出層外,每一層的輸出都會(huì)作為下一層的輸入。

前饋神經(jīng)網(wǎng)絡(luò)圖6-1單層前饋神經(jīng)網(wǎng)絡(luò)圖6-2多層前饋神經(jīng)網(wǎng)絡(luò)301遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN),也稱反饋神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)。與前饋神經(jīng)網(wǎng)絡(luò)不同,遞歸神經(jīng)網(wǎng)絡(luò)中至少存在一個(gè)反饋環(huán)路。遞歸神經(jīng)網(wǎng)絡(luò)既包含前饋連接,又具有反饋連接。這種結(jié)構(gòu)使得網(wǎng)絡(luò)能夠?qū)χ拜斎氲男畔⑦M(jìn)行記憶,并將其應(yīng)用于當(dāng)前輸出的計(jì)算中,從而保持?jǐn)?shù)據(jù)中的依賴關(guān)系。

遞歸神經(jīng)網(wǎng)絡(luò)圖6-3遞歸神經(jīng)網(wǎng)絡(luò)工作原理401遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)RNN的關(guān)鍵點(diǎn)之一就是他們可以用來連接先前的信息到當(dāng)前的任務(wù)上,當(dāng)預(yù)測(cè)下一時(shí)刻的輸出時(shí),有時(shí)需要依賴于若干個(gè)時(shí)間步之前的輸入信息,即“長期依賴現(xiàn)象”。

長期依賴現(xiàn)象圖6-4遞歸神經(jīng)網(wǎng)絡(luò)長期依賴現(xiàn)象501遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)反饋結(jié)構(gòu)的引入使得遞歸神經(jīng)網(wǎng)絡(luò)在處理長時(shí)間序列時(shí),需要反復(fù)進(jìn)行相同的計(jì)算,并且由于參數(shù)共享,這種結(jié)構(gòu)容易導(dǎo)致梯度消失或者梯度爆炸,使得學(xué)習(xí)長期依賴關(guān)系變得極具挑戰(zhàn),即“長期依賴問題”。

長期依賴問題產(chǎn)生原因圖6-5遞歸神經(jīng)網(wǎng)絡(luò)長期依賴問題601遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)為了解決上述問題,多種遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)被提出。下面的幾種網(wǎng)絡(luò)結(jié)構(gòu)主要是對(duì)遞歸神經(jīng)網(wǎng)絡(luò)中的參數(shù)傳遞機(jī)制進(jìn)行優(yōu)化,減少冗余信息記憶帶來的問題。

長期依賴問題解決方案設(shè)定循環(huán)的隱藏層單元:回聲狀態(tài)網(wǎng)絡(luò)(EchoStateNetwork,ESN),液態(tài)狀態(tài)機(jī)(LiquidStateMachine,LSM)多個(gè)時(shí)間尺度的模型:在時(shí)間展開方向增加跳躍連接、滲漏單元使用不同時(shí)間常數(shù)去處理信息門控RNN(gatedRNN):長短期記憶網(wǎng)絡(luò)(Longshort-termmemory,LSTM),門控循環(huán)單元(Gatedrecurrentunit)701遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)Bengio等人提出標(biāo)準(zhǔn)RNN存在梯度消失和梯度爆炸的困擾。這兩個(gè)問題都是由于RNN的迭代性引起的,導(dǎo)致其在早期并沒有得到廣泛的應(yīng)用。隨時(shí)間反向傳播(Backpropagationthroughtime,BPTT)算法,假設(shè)對(duì)于序列通過將上一時(shí)刻的狀態(tài)映射到下一時(shí)刻的狀態(tài)。T時(shí)刻損失函數(shù)關(guān)于參數(shù)的梯度為:根據(jù)鏈?zhǔn)椒▌t。Jacobian矩陣分解如下:

梯度消失和梯度爆炸(6-1)(6-2)801遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)循環(huán)網(wǎng)絡(luò)若要可靠地存儲(chǔ)信息,<1,也意味著當(dāng)模型能夠保持長距離依賴時(shí),其本身也處于梯度消失的情況下。隨著時(shí)間跨度增加,梯度也會(huì)以指數(shù)級(jí)收斂于0。當(dāng)>1時(shí),將發(fā)生梯度爆炸的現(xiàn)象,網(wǎng)絡(luò)也陷入局部不穩(wěn)定。

梯度消失和梯度爆炸圖6-6梯度爆炸示例圖6-7梯度消失示例902長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理RNN的結(jié)構(gòu)按時(shí)間步長展開,如下圖所示。RNN通過延遲遞歸使每個(gè)狀態(tài)都能傳輸并連接到下一個(gè)隱藏狀態(tài),并根據(jù)當(dāng)前輸入和前一狀態(tài)計(jì)算輸出。隱藏狀態(tài)和輸出可定義為:式中,是時(shí)刻的輸入向量;和是偏置項(xiàng);是非線性激活函數(shù);,和分別是輸入向量、隱藏狀態(tài)向量和輸出向量的連接權(quán)重。

標(biāo)準(zhǔn)RNN網(wǎng)絡(luò)結(jié)構(gòu)(6-3)(6-4)圖6-8RNN的結(jié)構(gòu)按時(shí)間步展開1002長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理LSTM神經(jīng)網(wǎng)絡(luò)是標(biāo)準(zhǔn)RNN的一個(gè)變體。不同的是,LSTM神經(jīng)網(wǎng)絡(luò)將RNN中的基本單元替換為LSTM單元,可以更好地處理長期依賴的梯度消失和梯度爆炸問題。基本LSTM單元的結(jié)構(gòu)如下圖所示?;镜腖STM單元通常包含三個(gè)輸入,分別是前一時(shí)刻的單元狀態(tài)、前一時(shí)刻的隱藏狀態(tài)和當(dāng)前時(shí)刻的輸入向量。

LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖6-9LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖1102長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理

LSTM網(wǎng)絡(luò)門控機(jī)制①遺忘門②輸入門③細(xì)胞狀態(tài)更新④輸出門(6-6)(6-5)(6-7)(6-8)(6-10)(6-9)(6-11)1202長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理

例6-1假設(shè)當(dāng)前時(shí)刻的輸入向量:=[0.1,0.2](對(duì)應(yīng)特征1的兩個(gè)維度),=[0.3,0.4](對(duì)應(yīng)特征2的兩個(gè)維度),前一時(shí)刻的隱藏狀態(tài):=[0.5],前一時(shí)刻的單元狀態(tài):=[0.6]。權(quán)重矩陣和偏置項(xiàng)為:=[0.1,0.2,0.3,0.4],=[0.6,0.7,0.8,0.9],=[0.4,0.5,0.6,0.7],=[1.0,1.1,1.2,1.3],=[1.0],=[0.5],=[0.6],

=[0.4],=[1.0],=[0.1],=[0.2],=[0.1]和=[0.3],試計(jì)算LSTM網(wǎng)絡(luò)輸出。圖6-10單個(gè)LSTM模塊1302長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理

例6-1輸入門輸出:遺忘門輸出:輸出門輸出:1402長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理

例6-1候選單元狀態(tài)輸出:更新單元狀態(tài):更新隱藏狀態(tài):網(wǎng)絡(luò)輸出:1503超參數(shù)對(duì)長短期記憶神經(jīng)網(wǎng)絡(luò)性能影響

長短期記憶神經(jīng)網(wǎng)絡(luò)的超參數(shù)及其作用長短期記憶神經(jīng)網(wǎng)絡(luò)的超參數(shù)是指在該網(wǎng)絡(luò)設(shè)計(jì)中和訓(xùn)練過程前需要預(yù)先設(shè)置的參數(shù),這些參數(shù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練過程和參數(shù)優(yōu)化有著重要影響。超參數(shù)的選擇對(duì)模型的性能和泛化能力有顯著影響,因此正確的超參數(shù)設(shè)置對(duì)于達(dá)到最優(yōu)模型性能至關(guān)重要。學(xué)習(xí)率(Learningrate)用于調(diào)整梯度下降算法中權(quán)重的更新速率,學(xué)習(xí)率設(shè)置不當(dāng)可能導(dǎo)致模型訓(xùn)練不穩(wěn)定或無法收斂。正則化參數(shù)(Regularizationparameter)用于防止過擬合,通過在損失函數(shù)中加入正則化項(xiàng),可以迫使模型選擇更簡單的結(jié)構(gòu)。1603超參數(shù)對(duì)長短期記憶神經(jīng)網(wǎng)絡(luò)性能影響

長短期記憶神經(jīng)網(wǎng)絡(luò)的超參數(shù)及其作用神經(jīng)網(wǎng)絡(luò)的層數(shù)(Numberofhiddenlayers)和神經(jīng)元數(shù)量(Numberofneurons)則影響網(wǎng)絡(luò)的深度和寬度,增加層數(shù)和神經(jīng)元數(shù)量可以提高模型的學(xué)習(xí)能力,但也可能增加過擬合的風(fēng)險(xiǎn)。激活函數(shù)(Activationfunction)決定了神經(jīng)元的輸出信號(hào)如何處理,不同的激活函數(shù)對(duì)網(wǎng)絡(luò)性能和收斂速度有顯著影響。批處理大小(BatchSize)是指在更新模型權(quán)重時(shí)使用的訓(xùn)練樣本數(shù),較小的批量大小可以提高模型的泛化能力,但可能導(dǎo)致訓(xùn)練過程不穩(wěn)定,較大的批量大小加快訓(xùn)練速度,但增加內(nèi)存需求。此外,還有學(xué)習(xí)率衰減、動(dòng)量和權(quán)重衰減等其它用于優(yōu)化訓(xùn)練過程的超參數(shù)。1703超參數(shù)對(duì)長短期記憶神經(jīng)網(wǎng)絡(luò)性能影響

學(xué)習(xí)率、隱藏單元個(gè)數(shù)和層數(shù)的選擇對(duì)性能的影響學(xué)習(xí)率決定了模型在訓(xùn)練過程中權(quán)重更新的步長,表征了模型權(quán)重在每次更新時(shí)響應(yīng)估計(jì)誤差的程度。學(xué)習(xí)率的選擇直接影響了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和收斂性。如果學(xué)習(xí)率設(shè)置得太小,會(huì)導(dǎo)致訓(xùn)練過程過長,模型收斂速度過慢。如果學(xué)習(xí)率設(shè)置得太大,則可能導(dǎo)致模型在訓(xùn)練過程中產(chǎn)生震蕩,甚至無法收斂到最優(yōu)解。圖6-11不同學(xué)習(xí)率下?lián)p失函數(shù)隨迭代次數(shù)變化1803超參數(shù)對(duì)長短期記憶神經(jīng)網(wǎng)絡(luò)性能影響

學(xué)習(xí)率、隱藏單元個(gè)數(shù)和層數(shù)的選擇對(duì)性能的影響隱藏單元個(gè)數(shù)是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的另一個(gè)關(guān)鍵超參數(shù),需要根據(jù)具體任務(wù)和數(shù)據(jù)集的復(fù)雜程度進(jìn)行合理調(diào)整,以平衡模型的表達(dá)能力和泛化能力。如果隱藏單元數(shù)量過少,可能導(dǎo)致模型無法充分學(xué)習(xí)數(shù)據(jù)的特征,從而限制了模型的性能。而隱藏單元數(shù)量過多,則可能導(dǎo)致模型過擬合,降低了模型的泛化能力。圖6-12單個(gè)隱含層神經(jīng)元擬合曲線(欠擬合)圖6-1350個(gè)隱含層神經(jīng)元擬合曲線(過擬合)1903超參數(shù)對(duì)長短期記憶神經(jīng)網(wǎng)絡(luò)性能影響

學(xué)習(xí)率、隱藏單元個(gè)數(shù)和層數(shù)的選擇對(duì)性能的影響層數(shù)也是影響神經(jīng)網(wǎng)絡(luò)性能的一個(gè)重要因素,增加神經(jīng)網(wǎng)絡(luò)的層數(shù)可以提高模型的復(fù)雜度和表達(dá)能力,使其能夠?qū)W習(xí)更復(fù)雜的特征和模式。然而,隨著層數(shù)的增加,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度也會(huì)增大,需要更多的計(jì)算資源和時(shí)間來完成訓(xùn)練。同時(shí),過深的神經(jīng)網(wǎng)絡(luò)還可能導(dǎo)致梯度消失或爆炸等問題,從而影響模型的性能。20圖6-14單層LSTM擬合曲線(擬合較好)圖6-1510層LSTM網(wǎng)絡(luò)擬合曲線(過擬合)04長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

超參數(shù)優(yōu)化的目標(biāo)與挑戰(zhàn)通過調(diào)整這些超參數(shù),可以平衡模型的訓(xùn)練速度和性能,以防止過擬合或欠擬合。超參數(shù)優(yōu)化的目標(biāo)主要是尋找最優(yōu)的超參數(shù)組合,使得模型在測(cè)試集上的誤差最小,從而提高模型的性能。然而,超參數(shù)優(yōu)化面臨著兩項(xiàng)主要挑戰(zhàn)。一方面,超參數(shù)優(yōu)化是一個(gè)組合優(yōu)化問題,其搜索空間隨著超參數(shù)數(shù)量的增加而迅速擴(kuò)大,如何高效地搜索這個(gè)空間并找到最優(yōu)的超參數(shù)組合是首要挑戰(zhàn)。另一方面,評(píng)估一組超參數(shù)配置的性能通常需要訓(xùn)練模型并在驗(yàn)證集上測(cè)試,這通常需要大量的計(jì)算資源和時(shí)間,如何快速且準(zhǔn)確地評(píng)估超參數(shù)的性能是另一項(xiàng)挑戰(zhàn)。2104長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

超參數(shù)優(yōu)化的目標(biāo)與挑戰(zhàn)研究者們提出了一些超參數(shù)優(yōu)化的方法,包括網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化、基于梯度的優(yōu)化、群優(yōu)化算法和其它自動(dòng)化超參數(shù)優(yōu)化工具,如Hyperopt、Scikit-Optimize和RayTune等。這些方法各有優(yōu)缺點(diǎn),適用于不同的場(chǎng)景和需求。網(wǎng)格搜索和隨機(jī)搜索:可以系統(tǒng)地探索超參數(shù)空間,但可能需要大量的計(jì)算資源。貝葉斯優(yōu)化:可以利用已有的觀察結(jié)果來調(diào)整搜索策略,提高搜索效率。群優(yōu)化算法:模擬生物進(jìn)化過程來尋找最優(yōu)的超參數(shù)組合,具有全局搜索能力。2204長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

自適應(yīng)學(xué)習(xí)率算法自適應(yīng)學(xué)習(xí)率算法是一種在模型訓(xùn)練過程中根據(jù)學(xué)習(xí)步長隨誤差曲面的變化來調(diào)整學(xué)習(xí)率的算法,其主要目的是達(dá)到縮短學(xué)習(xí)時(shí)間的效果。這種算法能夠根據(jù)模型的訓(xùn)練情況和數(shù)據(jù)的特點(diǎn)動(dòng)態(tài)地調(diào)整學(xué)習(xí)率,從而更高效地優(yōu)化模型參數(shù),有效地提高模型的訓(xùn)練速度和性能。常見的自適應(yīng)學(xué)習(xí)率算法包括自適應(yīng)梯度算法(AdaptiveGradientAlgorithm,

AdaGrad),均方根傳播算法(Rootmeansquarepropagation,RMSprop),自適應(yīng)矩估計(jì)算法(AdaptiveMomentEstimationAlgorithm,Adam)。2304長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

AdaGrad算法AdaGrad算法是一種基于梯度的優(yōu)化算法,借鑒L2正則化的思想,每次迭代時(shí)自適應(yīng)地調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,在第t次迭代時(shí),先計(jì)算每個(gè)參數(shù)梯度平方的累積值。式中,⊙為按元素乘積,是第τ次迭代時(shí)的梯度。參數(shù)更新為式中,α是初始的學(xué)習(xí)率,ε是為了保持?jǐn)?shù)值穩(wěn)定性而設(shè)置的非常小的常數(shù),一般取值e-7到e-10。此外,這里的開平方、除、加運(yùn)算都是按元素進(jìn)行的操作。通過累積梯度平方的方式來自適應(yīng)地調(diào)整學(xué)習(xí)率,對(duì)低頻出現(xiàn)的參數(shù)進(jìn)行大的更新,對(duì)高頻出現(xiàn)的參數(shù)進(jìn)行小的更新。從而更加關(guān)注罕見特征的梯度。(6-12)(6-13)2404長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

RMSprop算法RMSprop算法是另一種自適應(yīng)學(xué)習(xí)率方法,它對(duì)AdaGrad算法進(jìn)行了改進(jìn),通過引入衰減系數(shù)來減小歷史梯度對(duì)學(xué)習(xí)率的影響,可以在某些情況下克服AdaGrad算法中學(xué)習(xí)率不斷單調(diào)下降以至于過早衰減的缺點(diǎn)。該算法首先計(jì)算每次選代梯度平方的加權(quán)移動(dòng)平均式中,β為衰減率,一般取值為0.9。參數(shù)更新為式中,α是初始的學(xué)習(xí)率,比如0.001。RMSprop算法和AdaGrad算法的區(qū)別在于RMSprop算法中的計(jì)算由累積方式變成了加權(quán)移動(dòng)平均。(6-14)(6-15)2504長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

Adam算法Adam算法可以看作動(dòng)量法和RMSprop算法的結(jié)合,不但使用動(dòng)量作為參數(shù)更新方向,而且可以自適應(yīng)調(diào)整學(xué)習(xí)率。Adam算法一方面計(jì)算梯度平方的加權(quán)移動(dòng)平均(和RMSprop算法類似),另一方面計(jì)算梯度的加權(quán)移動(dòng)平均(和動(dòng)量法類似)。式中,和分別為兩個(gè)移動(dòng)平均的衰減率,通常取值為=0.9,=0.99。我們可以把和分別看作梯度的均值(一階矩)和未減去均值的方差(二階矩)。(6-16)(6-17)2604長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

Adam算法假設(shè)=0,=0,那么在迭代初期

的值會(huì)比真實(shí)的均值和方差要小。特別是當(dāng)和都接近于1時(shí),偏差會(huì)很大,因此需要一階矩與二階矩修正如下:Adam算法的參數(shù)更新為Adam算法結(jié)合了動(dòng)量優(yōu)化和RMSprop的特點(diǎn)計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率,它不僅具有動(dòng)量優(yōu)化方法的快速收斂性,還能適應(yīng)非平穩(wěn)數(shù)據(jù)和大規(guī)模數(shù)據(jù)集。Adam算法在許多深度學(xué)習(xí)任務(wù)中表現(xiàn)優(yōu)秀。(6-18)(6-19)(6-20)2704長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

增長-修剪型結(jié)構(gòu)設(shè)計(jì)算法神經(jīng)網(wǎng)絡(luò)的泛化能力被認(rèn)為是評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)性能優(yōu)劣的重要指標(biāo),而神經(jīng)網(wǎng)絡(luò)泛化性能的優(yōu)劣與網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)密不可分。確定合適的網(wǎng)絡(luò)結(jié)構(gòu)是LSTM神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的關(guān)鍵步驟之一,結(jié)構(gòu)過小或過大都會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的欠擬合或過擬合問題。為了增強(qiáng)網(wǎng)絡(luò)的適應(yīng)性能和提高網(wǎng)絡(luò)的泛化能力,眾多學(xué)者致力于自組織神經(jīng)網(wǎng)絡(luò)(Self-organizingneuralnetwork,SONN)的研究,并取得了豐碩的成果。皮層網(wǎng)絡(luò)通過一系列影響其突觸和神經(jīng)元特性的可塑性機(jī)制表現(xiàn)出驚人的學(xué)習(xí)和適應(yīng)能力。這些機(jī)制允許大腦皮層的遞歸網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜時(shí)空刺激的表征。2804長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

增長-修剪型結(jié)構(gòu)設(shè)計(jì)算法受這種可塑性原理的啟發(fā),本節(jié)提出一種基于神經(jīng)元影響值(Neuronimpactvalue,NIV)和顯著性指標(biāo)(Significanceindex,SI)的自組織長短期記憶神經(jīng)網(wǎng)絡(luò)(Self-organizinglongshort-termmemoryneuralnetwork,SOLSTM),實(shí)現(xiàn)隱含層神經(jīng)元的動(dòng)態(tài)優(yōu)化,構(gòu)造出結(jié)構(gòu)緊湊且泛化性能好的網(wǎng)絡(luò)。圖6-16神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自組織示意圖2904長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

結(jié)構(gòu)剪枝算法初始化網(wǎng)絡(luò)模型結(jié)構(gòu),將輸入變量按照比例α

依次增加和減少,得到兩個(gè)新的輸入變量和。將新得到的輸入變量和分別通過網(wǎng)絡(luò)模型,得到兩組新的神經(jīng)元輸出和,二者差的絕對(duì)值即為神經(jīng)元對(duì)輸入變量按α比例增減后產(chǎn)生的響應(yīng)變化,記為。(6-21)(6-22)(6-23)3004長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

結(jié)構(gòu)剪枝算法由于神經(jīng)元影響值是神經(jīng)元活躍度的具體體現(xiàn),因此需要保留具有較大值的神經(jīng)元。這里,設(shè)定前m個(gè)神經(jīng)元的累積活躍度為,定義為式中,M是初始隱含層神經(jīng)元個(gè)數(shù)。通過設(shè)置累積活躍度閾值ξ,保留最活躍的前?比例且累積活躍γ高于ξ的神經(jīng)元。(6-24)3104長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

結(jié)構(gòu)剪枝算法抑制剩余對(duì)輸入變量變化不敏感的神經(jīng)元,即將它們的神經(jīng)元連接權(quán)值掩碼MASK置0。為保證SOLSTM神經(jīng)網(wǎng)絡(luò)的收斂性,將最大的第q個(gè)神經(jīng)元的輸出權(quán)值參數(shù)調(diào)整為式中,和是刪除d個(gè)神經(jīng)元前后第q個(gè)神經(jīng)元的輸出權(quán)值,和是刪除d個(gè)神經(jīng)元前第s

個(gè)神經(jīng)元和第q個(gè)神經(jīng)元的輸出值。神經(jīng)元剪枝后,將d個(gè)神經(jīng)元的參數(shù)設(shè)為零,而第q個(gè)神經(jīng)元除輸出權(quán)值外其余參數(shù)不變。(6-25)3204長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

結(jié)構(gòu)增長算法與大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,LSTM神經(jīng)網(wǎng)絡(luò)的輸出層起到求和的作用。如果輸出權(quán)值的絕對(duì)值很大,則說明該權(quán)值所連接的隱含層神經(jīng)元對(duì)網(wǎng)絡(luò)總輸出的貢獻(xiàn)也較大。為了改善神經(jīng)元過度修剪的情況,可以重新激活這些隱含層神經(jīng)元。因此,提出基于輸出權(quán)重的顯著性指標(biāo)SI來評(píng)價(jià)每個(gè)隱含層神經(jīng)元的貢獻(xiàn)。若SI值越大,則說明對(duì)應(yīng)的隱含層神經(jīng)元對(duì)輸出的貢獻(xiàn)越顯著。因此,根據(jù)每個(gè)LSTM神經(jīng)元的貢獻(xiàn)顯著性,找出并激活最顯著的前β比例神經(jīng)元,即將它們的連接權(quán)值掩碼MASK置1。此外,為保證SOLSTM神經(jīng)網(wǎng)絡(luò)的收斂性,將激活神經(jīng)元的輸出權(quán)值初始化為(6-26)(6-27)3304長短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法

網(wǎng)絡(luò)結(jié)構(gòu)自組織算法實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的增長和修剪,具體步驟如下:(1)選擇合適的參數(shù),包括LSTM神經(jīng)網(wǎng)絡(luò)參數(shù)如學(xué)習(xí)率η、網(wǎng)絡(luò)權(quán)值等,自組織過程參數(shù)如影響值比例α

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論