第5章 深度學(xué)習(xí)模型ppt課件_第1頁
第5章 深度學(xué)習(xí)模型ppt課件_第2頁
第5章 深度學(xué)習(xí)模型ppt課件_第3頁
第5章 深度學(xué)習(xí)模型ppt課件_第4頁
第5章 深度學(xué)習(xí)模型ppt課件_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

.,高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用,劉鵬主編趙海峰副主編,BIGDATA,劉鵬張燕總主編,深度學(xué)習(xí),.,全國高校標(biāo)準(zhǔn)教材xxx姊妹篇,剖析xxx技術(shù)和實(shí)戰(zhàn)應(yīng)用,緒論,of,47,2,.,5.1神經(jīng)網(wǎng)絡(luò)技術(shù)的歷史與發(fā)展,第五章深度學(xué)習(xí)模型,早期的神經(jīng)網(wǎng)絡(luò)是一個(gè)淺層的學(xué)習(xí)模型(包含一個(gè)輸入層、一個(gè)隱層及一個(gè)輸出層),它有大量的參數(shù),在訓(xùn)練集上有較好的表現(xiàn),但實(shí)際應(yīng)用時(shí)其識(shí)別率并沒有比其他模型(如支持向量機(jī)、Boosting等)體現(xiàn)出明顯的優(yōu)勢(shì)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)采用誤差反向傳播算法(BackPropagation,簡稱BP算法),使用梯度下降方法在訓(xùn)練過程中修正權(quán)重減少網(wǎng)絡(luò)誤差。在層次深的情況下性能變得很不理想,傳播時(shí)容易出現(xiàn)所謂的梯度彌散GradientDiffusion或稱之為梯度消失(VanishingGradientProblem),根源在于非凸目標(biāo)代價(jià)函數(shù)導(dǎo)致求解陷入局部最優(yōu),且這種情況隨著網(wǎng)絡(luò)層數(shù)的增加而更加嚴(yán)重,即隨著梯度的逐層不斷消散導(dǎo)致其對(duì)網(wǎng)絡(luò)權(quán)重調(diào)整的作用越來越小。所以只能轉(zhuǎn)而處理淺層結(jié)構(gòu)(通常小于等于3),從而限制了神經(jīng)網(wǎng)絡(luò)的大范圍應(yīng)用。,of,47,3,5.1概述-淺層神經(jīng)網(wǎng)絡(luò),.,5.1神經(jīng)網(wǎng)絡(luò)技術(shù)的歷史與發(fā)展,第五章深度學(xué)習(xí)模型,2006年Hinton提出深度學(xué)習(xí)11后才被打破,深度神經(jīng)網(wǎng)絡(luò)的復(fù)興存在多方面的原因其一,大規(guī)模的訓(xùn)練樣本可以緩解過擬合問題;其二,網(wǎng)絡(luò)模型的訓(xùn)練方法也有了顯著的進(jìn)步;其三,計(jì)算機(jī)硬件的飛速發(fā)展(如英偉達(dá)顯卡的出現(xiàn))使得訓(xùn)練效率能夠以幾倍、十幾倍的幅度提升。此外,深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征學(xué)習(xí)能力,過去幾十年中,手工設(shè)計(jì)特征一直占據(jù)著主導(dǎo)地位,特征的好壞直接影響到系統(tǒng)的性能。,of,47,4,5.1概述-深度學(xué)習(xí)模型,.,5.1神經(jīng)網(wǎng)絡(luò)技術(shù)的歷史與發(fā)展,第五章深度學(xué)習(xí)模型,面對(duì)一個(gè)新的任務(wù),如果采用手工設(shè)計(jì)的方式,往往需要很長時(shí)間,而深度學(xué)習(xí)能很快提取到具有代表性的特征。另一方面,隨著分類任務(wù)復(fù)雜性的增加,需要用到越來越多的參數(shù)及樣本,雖然淺層神經(jīng)網(wǎng)絡(luò)也能模擬出與深度學(xué)習(xí)相同的分類函數(shù),但其所需的參數(shù)要多出幾個(gè)數(shù)量級(jí),以至于很難實(shí)現(xiàn)。,of,47,5,5.1概述-深度學(xué)習(xí)模型,.,5.1神經(jīng)網(wǎng)絡(luò)技術(shù)的歷史與發(fā)展,第五章深度學(xué)習(xí)模型,學(xué)術(shù)界已經(jīng)提出了多種深度學(xué)習(xí)模型,其中影響力較大的有以下幾種(1)卷積神經(jīng)網(wǎng)絡(luò):該網(wǎng)絡(luò)一般包含三種類型的層,分別是卷積層、下采樣層及全連接層。通過卷積核與上一層輸出進(jìn)行卷積作為卷積層的輸出,這樣可以達(dá)到權(quán)值共享的目的;下采樣是在卷積層的基礎(chǔ)上,在一個(gè)固定區(qū)域中采樣一個(gè)點(diǎn),使得整個(gè)網(wǎng)絡(luò)具有一定的縮放、平移及形變不變性。(2)循環(huán)神經(jīng)網(wǎng)絡(luò):該網(wǎng)絡(luò)與傳統(tǒng)前饋網(wǎng)絡(luò)的區(qū)別在于,隱層的輸入不僅包括輸入層的數(shù)據(jù),還包括前一時(shí)刻的隱層數(shù)據(jù)。這種結(jié)構(gòu)的網(wǎng)絡(luò)能有效處理序列數(shù)據(jù),如自然語言處理。(3)深度置信網(wǎng)絡(luò):該網(wǎng)絡(luò)由若干層受限玻爾茲曼機(jī)及一個(gè)反向傳播網(wǎng)絡(luò)組成。,of,47,6,5.1概述-深度學(xué)習(xí)模型,.,全國高校標(biāo)準(zhǔn)教材xxx姊妹篇,剖析xxx技術(shù)和實(shí)戰(zhàn)應(yīng)用,緒論,of,47,7,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,CNN)已在圖像理解領(lǐng)域得到了廣泛的應(yīng)用,特別是隨著大規(guī)模圖像數(shù)據(jù)的產(chǎn)生以及計(jì)算機(jī)硬件(特別是GPU)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)以及其改進(jìn)方法在圖像理解中取得了突破性的成果,引發(fā)了研究的熱潮。,of,47,8,5.2卷積神經(jīng)網(wǎng)絡(luò),.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,CNN)已在圖像理解領(lǐng)域得到了廣泛的應(yīng)用,特別是隨著大規(guī)模圖像數(shù)據(jù)的產(chǎn)生以及計(jì)算機(jī)硬件(特別是GPU)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)以及其改進(jìn)方法在圖像理解中取得了突破性的成果,引發(fā)了研究的熱潮。,of,47,9,5.2卷積神經(jīng)網(wǎng)絡(luò),.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,10,圖5.1卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)圖,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,11,圖5.2卷積層,圖5.3圖像卷積效果示意圖,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,12,卷積計(jì)算的輸出值通常需要通過激勵(lì)函數(shù),實(shí)現(xiàn)非線性變換。,Sigmoid函數(shù)(SigmoidFunction),Sigmoid是常用的非線性的激活函數(shù),它的數(shù)學(xué)形式如下:,Sigmoid函數(shù),它能把實(shí)數(shù)(-,+)壓縮到區(qū)間(0,1)之間,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,13,ReLU(RectifiedLinearUnits)函數(shù),它的數(shù)學(xué)表達(dá)式如下:1維的情況下,當(dāng)x0時(shí),輸出為輸入。ReLU激勵(lì)函數(shù)變的越來越受歡迎。ReLU的有效性體現(xiàn)在兩個(gè)方面:1)克服梯度消失的問題;2)加快訓(xùn)練速度。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,14,在深層卷積神經(jīng)網(wǎng)絡(luò)中,可以通過設(shè)計(jì)多個(gè)卷積層,不同層可以提取到不同類型的特征用于最終分類任務(wù)。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,15,池化層:池化層也屬于中間層,也稱采樣層或抽樣層,為特征映射層池化包括:最大池化或平均池化。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,16,輸出層:卷積神經(jīng)網(wǎng)絡(luò)的輸出層與其他神經(jīng)前饋神經(jīng)網(wǎng)絡(luò)一樣,為全連接方式。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,17,輸出層:卷積神經(jīng)網(wǎng)絡(luò)的輸出層與其他神經(jīng)前饋神經(jīng)網(wǎng)絡(luò)一樣,為全連接方式。全連接方式中輸出值的計(jì)算:,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,18,神經(jīng)網(wǎng)絡(luò)有兩類基本運(yùn)算模式:前向傳播和反向傳播。前向傳播是指輸入信號(hào)通過前一層中一個(gè)或多個(gè)網(wǎng)絡(luò)層之間傳遞信號(hào),然后在輸出層得到輸出的過程。反向傳播算法是神經(jīng)網(wǎng)絡(luò)有監(jiān)督學(xué)習(xí)中的一種常用方法,其目標(biāo)是根據(jù)訓(xùn)練樣本和期望輸出來估計(jì)網(wǎng)絡(luò)參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練要復(fù)雜一些。但訓(xùn)練的原理是一樣的:利用鏈?zhǔn)角髮?dǎo)計(jì)算損失函數(shù)對(duì)每個(gè)權(quán)重的偏導(dǎo)數(shù)(梯度),然后根據(jù)梯度下降公式更新權(quán)重。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,45,19,反向傳輸調(diào)整權(quán)重反向傳輸過程是CNN最復(fù)雜的地方,雖然從宏觀上來看基本思想跟BP一樣,都是通過最小化殘差來調(diào)整權(quán)重和偏置,但CNN的網(wǎng)絡(luò)結(jié)構(gòu)并不像BP網(wǎng)絡(luò)那樣單一,而且因?yàn)闄?quán)重共享,使得計(jì)算殘差變得很困難。輸出層的殘差和BP一樣,CNN的輸出層的殘差與中間層的殘差計(jì)算方式不同,輸出層的殘差是輸出值與類標(biāo)值的誤差值,而中間各層的殘差來源于下一層的殘差的加權(quán)和。本章以平方誤差損失函數(shù)的多分類問題為例介紹反向傳播算法算法。對(duì)于一個(gè)c個(gè)類和和N個(gè)訓(xùn)練樣本的例子,總誤差可以如下給出。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,45,20,首先介紹網(wǎng)絡(luò)第l層的靈敏度的計(jì)算方法(Sensitivity),描述了總誤差E怎樣隨著凈激活值而變化反向傳播算法實(shí)際上通過所有網(wǎng)絡(luò)層的靈敏度來計(jì)算總誤差對(duì)所有網(wǎng)絡(luò)參數(shù)的偏導(dǎo)數(shù)從而計(jì)算使得訓(xùn)練誤差減小的方向。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,45,21,卷積層l的靈敏度需要用下一層池化層l+1的靈敏度表示卷積層l的靈敏度,然后計(jì)算總誤差E對(duì)卷積層參數(shù)(卷積核參數(shù)k、偏置參數(shù)b)的偏導(dǎo)數(shù)。通過鏈?zhǔn)角髮?dǎo)可得第l層中第j個(gè)通道的靈敏度:其中,表示每個(gè)向量與矩陣相乘。若池化層采樣因子為n,則將每個(gè)像素在水平和垂直方向上復(fù)制n次,于是就可以從l+1層的靈敏度上采樣成卷積層l的靈敏度,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,45,22,使用靈敏度計(jì)算卷積層l中的參數(shù)(卷積核參數(shù)k、偏置參數(shù)b)的偏導(dǎo),分兩種情況。情況1:對(duì)于總誤差E對(duì)偏移量的偏導(dǎo),可以對(duì)卷積層l的靈敏度中所有結(jié)點(diǎn)進(jìn)行求和運(yùn)算:情況2:對(duì)于總誤差關(guān)于卷積核參數(shù)的偏導(dǎo),使用鏈?zhǔn)角髮?dǎo)時(shí)需要用所有與該卷積核相乘的特征圖元素來求偏導(dǎo):,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,45,23,池化層(downsampling):為計(jì)算池化層l的靈敏度,需要用下一層卷積層l+1的靈敏度表示池化層l的靈敏度,然后計(jì)算總誤差E對(duì)池化層參數(shù)(權(quán)重系數(shù)、偏置參數(shù)b)的導(dǎo)數(shù)。此處的down()表示池化層的下采樣(downsampling)函數(shù)。一般來說將l層中nxn塊進(jìn)行最大池化或平均池化操作,使得輸出的圖像維度在兩個(gè)方向上都要小n倍。此處我們假設(shè)池化層的上一層和下一層都是卷積層。如果下一層開始是全連接層,那么可以使用BP神經(jīng)網(wǎng)絡(luò)中的反向傳播算法來計(jì)算靈敏度矩陣。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,45,24,全連接層:在全連接網(wǎng)絡(luò)中,如果使用l表示當(dāng)前層,使用L表示輸出層,那么可以使用如下式子來計(jì)算輸入當(dāng)前層的輸出,此處輸出激活函數(shù)一般選sigmoid函數(shù)或者ReLU函數(shù),常稱為當(dāng)前神經(jīng)單元的凈激活值。全連接層l的靈敏度可通過下式計(jì)算:輸出層的神經(jīng)元靈敏度可由下面的公式計(jì)算:總誤差對(duì)偏移項(xiàng)的偏導(dǎo)如下:,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,25,全連接層:在全連接網(wǎng)絡(luò)中,如果使用l表示當(dāng)前層,使用L表示輸出層,那么可以使用如下式子來計(jì)算輸入當(dāng)前層的輸出,此處輸出激活函數(shù)一般選sigmoid函數(shù)或者ReLU函數(shù),常稱為當(dāng)前神經(jīng)單元的凈激活值??傉`差對(duì)偏移項(xiàng)的偏導(dǎo)如下:總誤差對(duì)權(quán)系數(shù)項(xiàng)的偏導(dǎo)如下,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,26,對(duì)于每個(gè)網(wǎng)絡(luò)參數(shù)都有一個(gè)特定的學(xué)習(xí)率。若學(xué)習(xí)率太小,則訓(xùn)練的速度緩慢;若學(xué)習(xí)率太大,則可導(dǎo)致無法收斂。在實(shí)際問題中,如果總誤差在學(xué)習(xí)過程中發(fā)散,那么學(xué)習(xí)率調(diào)??;反之,如果學(xué)習(xí)速度過慢,那么將學(xué)習(xí)率調(diào)大。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,27,CNN訓(xùn)練技巧卷積層訓(xùn)練技巧傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的卷積層采用線性濾波器與非線性激活函數(shù),一種改進(jìn)的方法在卷積層使用多層感知機(jī)模型作為微型神經(jīng)網(wǎng)絡(luò),通過在輸入圖像中滑動(dòng)微型神經(jīng)網(wǎng)絡(luò)來得到特征圖,該方法能夠增加神經(jīng)網(wǎng)絡(luò)的表示能力,被稱為Networkinnetwork。池化層的選擇池化(Pooling)是卷積神經(jīng)網(wǎng)絡(luò)中一個(gè)重要的操作,它能夠使特征減少,同時(shí)保持特征的局部不變性。常用的池化操作有:空間金字塔池化(SpatialPyramidPooling,SPP)、最大池化(MaxPooling)、平均池化(MeanPooling)、隨機(jī)池化(StochasticPooling)等激活函數(shù)的選擇常用激活函數(shù)有:ReLU、LeaklyReLU、ParametricReLU、RandomizedReLU、ELU等。,.,5.2卷積神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,28,CNN訓(xùn)練技巧損失函數(shù)的選擇損失函數(shù)的選擇在卷積神經(jīng)網(wǎng)絡(luò)中起重要作用,代表性的損失函數(shù)有:平方誤差損失、互熵?fù)p失(Crossentropyloss)、Hinge損失等優(yōu)化方法和技巧卷積神經(jīng)網(wǎng)絡(luò)常用的優(yōu)化方法包含隨機(jī)梯度下降方法(Stochasticgradientdescent,SGD),常用的技巧有權(quán)值初始化、權(quán)值衰減(Weightdecay)、Batchnormalization等。,.,全國高校標(biāo)準(zhǔn)教材xxx姊妹篇,剖析xxx技術(shù)和實(shí)戰(zhàn)應(yīng)用,緒論,of,47,29,.,5.3循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,30,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrentneuralnetworks,RNN)是用來處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)RNN之所以稱為循環(huán)神經(jīng)網(wǎng)路,即一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡(luò)會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時(shí)刻隱藏層的輸出。隱藏層之間的節(jié)點(diǎn)不再無連接而是有連接的。RNN已經(jīng)被在實(shí)踐中證明對(duì)NLP是非常成功的。如詞向量表達(dá)、語句合法性檢查、詞性標(biāo)注等。,.,5.3循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,31,RNN結(jié)構(gòu)RNN網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)之間是有連接的,隱含層的節(jié)點(diǎn)的輸入不僅包括輸入層還有上一時(shí)刻隱含層的輸出。RNN和其他網(wǎng)絡(luò)一樣也包含輸入層、隱含層和輸出層。這些隱含層的連接是RNN最主要的特色。,.,5.3循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,32,RNN結(jié)構(gòu)輸入層節(jié)點(diǎn)和隱含層節(jié)點(diǎn)相互連接,隱含層輸出到輸出層,而隱含層不是節(jié)點(diǎn)之間沒有相互影響,可以是上一個(gè)時(shí)間節(jié)點(diǎn)輸出信息重新返回隱含層節(jié)點(diǎn),還可以包含隱含層相鄰節(jié)點(diǎn)相互連接,是一個(gè)動(dòng)態(tài)的網(wǎng)絡(luò)。生物神經(jīng)網(wǎng)絡(luò)都是一種循環(huán)網(wǎng)絡(luò),可以對(duì)序列式數(shù)據(jù)理解,因此RNN更加接近生物神經(jīng)系統(tǒng)。,.,5.2循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,33,RNN訓(xùn)練對(duì)于RNN是的訓(xùn)練和對(duì)傳統(tǒng)的ANN訓(xùn)練一樣。同樣使用BP誤差反向傳播算法,不過有一點(diǎn)區(qū)別。如果將RNNs進(jìn)行網(wǎng)絡(luò)展開,那么參數(shù)W,U,V是共享的,而傳統(tǒng)神經(jīng)網(wǎng)絡(luò)卻不是的。并且在使用梯度下降算法中,每一步的輸出不僅依賴當(dāng)前步的網(wǎng)絡(luò),并且還以來前面若干步網(wǎng)絡(luò)的狀態(tài)。,.,5.2循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,34,RNN訓(xùn)練前饋網(wǎng)絡(luò)的BP算法不能直接轉(zhuǎn)移到RNN網(wǎng)絡(luò),因?yàn)檎`差的反饋是以節(jié)點(diǎn)之間的連接沒有環(huán)狀結(jié)構(gòu)為前提的。在RNN中使用BPTT(BackPropagationThroughTime)訓(xùn)練算法它會(huì)沿著時(shí)間展開神經(jīng)網(wǎng)絡(luò),重新指定網(wǎng)絡(luò)中的連接來形成序列。它的基本原理和BP算法是一樣的,也包含同樣的三個(gè)步驟:1)前向計(jì)算每個(gè)神經(jīng)元的輸出值;2)反向計(jì)算每個(gè)神經(jīng)元的誤差項(xiàng)值,它是誤差函數(shù)E對(duì)神經(jīng)元j的加權(quán)輸入的偏導(dǎo)數(shù);3)計(jì)算每個(gè)權(quán)重的梯度,最后再用隨機(jī)梯度下降算法更新權(quán)重。,.,5.2循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,35,RNN中的自我反饋結(jié)構(gòu)在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,每一個(gè)網(wǎng)絡(luò)層的參數(shù)是不共享的。而在RNNs中,每輸入一步,每一層各自都共享參數(shù)U,V,W。因此RNNs中的每一步計(jì)算函數(shù),只是輸入值不同,因此極大地降低了網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù);此處將RNN進(jìn)行展開,這樣變成了多層的網(wǎng)絡(luò)。RNN的關(guān)鍵之處在于隱藏層,隱藏層具有記憶能力,能夠記憶序列信息。,.,5.2循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,36,RNN訓(xùn)練技巧前面介紹RNN訓(xùn)練算法BPTT無法解決長時(shí)依賴問題(即當(dāng)前的輸出與前面很長的一段序列有關(guān),一般超過十步就無能為力了),因?yàn)锽PTT會(huì)帶來所謂的梯度消失或梯度爆炸問題(vanishing/explodinggradientproblem),這導(dǎo)致訓(xùn)練時(shí)梯度不能在較長序列中一直傳遞下去,從而使RNN無法捕捉到長距離的影響。梯度爆炸更容易處理一些。因?yàn)樘荻缺ǖ臅r(shí)候,我們的程序會(huì)收到NaN錯(cuò)誤。我們也可以設(shè)置一個(gè)梯度閾值,當(dāng)梯度超過這個(gè)閾值的時(shí)候可以直接截取。,.,5.2循環(huán)神經(jīng)網(wǎng)絡(luò),第五章深度學(xué)習(xí)模型,of,47,37,RNN訓(xùn)練技巧前面介紹RNN訓(xùn)練算法BPTT無法解決長時(shí)依賴問題(即當(dāng)前的輸出與前面很長的一段序列有關(guān),一般超過十步就無能為力了),因?yàn)锽PTT會(huì)帶來所謂的梯度消失或梯度爆炸問題(vanishing/explodinggradientproblem),這導(dǎo)致訓(xùn)練時(shí)梯度不能在較長序列中一直傳遞下去,從而使RNN無法捕捉到長距離的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論