開題報告提交版_第1頁
開題報告提交版_第2頁
開題報告提交版_第3頁
開題報告提交版_第4頁
開題報告提交版_第5頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、摘要強化學習是機器學習的一個重要分支,它是一種以環(huán)境反應作為輸入的,特殊的、適應環(huán)境的學習.它將環(huán)境抽象成假設干狀態(tài),通過不斷試錯強化而產生狀態(tài)到行為的最優(yōu)化映射.然而實際環(huán)境的狀態(tài)數無限或連續(xù)或狀態(tài)不完全可知,因此很難以用數學模型精確定義系統.加上強化學習算法的收斂性較慢,因此如何能夠優(yōu)化的建立環(huán)境模型,如何提升算法效率就成為強化學習面臨的主要問題.本次課題首先介紹強化學習的概念、建立系統模型,再介紹幾種經典的強化學習算法,接著介紹目前解決假設干問題而提出的POMDP模型,PSR模型、HRL模型,最后就PSR模型進行算法改良.關鍵詞:強化學習;蒙特卡諾法;TD算法;Q學習;Sasar學習;P

2、OMDP模型;PSR模型;HRL模型強化學習技術是從限制理論、統計學、心理學等相關學科開展而來的,在人工智能、機器學習和自動限制等領域中得到廣泛的研究和應用,并被認為是設計智能系統的核心技術之"o一.強化學習的理論根底:1 .強化學習問題的框架:我們將有智能的學習體稱為agent,將系統分成假設干個狀態(tài),每個狀態(tài)S可以有不同的動作選擇,對應的每個選擇也就有一個值函數Qs,a.Agent選擇一個動作a作用于環(huán)境,環(huán)境接收該動作后狀態(tài)發(fā)生變化S',同時產生一個強化信號r獎賞給agent,agent根據這個獎賞評價剛剛的動作的好壞進而修改該動作值,并選擇下一動作a'.對于一

3、個強化學習系統來講,其目標是學習一個行為策略:兀:S->A,使系統選擇的動作能夠獲得環(huán)境獎賞的累計值2r最大.當一個動作導致環(huán)境給正的獎賞時這種動作的趨勢就被增強,反之那么減弱.強化學習的目的就是要學習從狀態(tài)到動作的最正確映射,以便使獎勵信號最大化.10,11強化學習的框架如圖:2 .環(huán)境的描述:通常,我們從五個角度對環(huán)境進行分析:【4】角度一:離散狀態(tài)vs連續(xù)狀態(tài)角度二:狀態(tài)完全可感知vs狀態(tài)局部可感知角度三:插曲式vs非插曲式角度四:確定性vs不確定性角度五:靜態(tài)vs動態(tài)在強化學習中,我們首先考慮最簡單的環(huán)境模型隨機、離散狀態(tài)、離散時間對其數學建模.我們通常用馬爾科夫模型:馬爾科夫狀

4、態(tài):一個狀態(tài)信號保存了所有的相關信息,那么就是馬兒科夫的.馬兒科夫決策過程(MDP)2】:MDP的本質是:當狀態(tài)向下一狀態(tài)轉移的概率和獎賞值只取決于當前狀態(tài)和選擇的動作,而與歷史狀態(tài)和動作無關.強化學習主要研究在P和R函數未知的情況下系統如何學習最優(yōu)的行為策略.用rt+i表示t時刻的即時獎賞【7】,用Rt表示t時刻的累計獎賞,那么Rt為t時刻開始到最后的所有獎賞和,而越后續(xù)的動作對當前影響要比t時刻獎賞逐漸減小,因此越往后的獎賞加上了一個折扣丫,這樣,t時刻的獎賞總和就是2-Rt=rt+i+rrt+2+丫rt+3+=rt+i+丫Rt+i(1)兀t時刻狀態(tài)s的狀態(tài)值(表示狀態(tài)s如何優(yōu)秀)用V(s

5、)表示,它用t時刻選擇各個動作的獎賞的數學期望來表示.兀兀V=ERt|st=s兀=Ert+i+丫V(st+i)|st=s兀=£Ms,a)ZPs:,R;s,+丫V(s)(2)as'注意到這里兩式都是一個遞推式,稱為Bellman等式,寫成這種形式非常便于從狀態(tài)s轉換到s'時計算狀態(tài)值.強化學習問題是要尋求一個最優(yōu)的策略九*,在上面的等式中表現為尋求狀態(tài)值的最優(yōu)值,在不斷學習強化的過程中對狀態(tài)s獲得一個最優(yōu)值V*(s),它表示在狀態(tài)s下選取最優(yōu)的那個動作而獲得的最大的累計獎賞回報.因此在最優(yōu)策略冗*下,狀態(tài)s的最優(yōu)值定義為:V(s)=maxErt+i+丫V(st+i)|s

6、t=sa:-A(s)兀=蟹£,葭同+丫V(s')(3)各種算法的最終目的便是計算各狀態(tài)的最優(yōu)值,并根據最優(yōu)值去指導動作.經典的強化學習算法回憶:動態(tài)規(guī)劃算法【i】:動態(tài)規(guī)劃的思想,根據2式去不斷由V(s')估方tV(s)的值估計完成后下一次可以繼續(xù)選擇最優(yōu)的動作,這樣迭代到一定程度后算法收斂,每個V(s)都會收斂到一個穩(wěn)定值,從而學習到一個最優(yōu)的策略.用公式表不為:兀Vk+1(s)=ERt|st=s兀=Ert+i+丫V(st+i)|st=s=ZMs,a)ZPs;R:s,+YVk(s')(4)as'2.蒙特卡諾算法:在強化學習中,P和R開始都是未知的,系

7、統無法直接通過(4)式進行值函數的估計,因此常常是是在完整的學習一次后才將學習中各步的獎賞累計用于計算經過的狀態(tài)的值函數估計.稱為蒙特卡諾方法.如式(5),保持兀策略不變,在每次學習循環(huán)中重復的使用(5)式,將(5)式逼近于(3)式.V(st)<-V(st)+aRt-V(st)(5)3. TD算法:【13】結合動態(tài)規(guī)劃和蒙特卡諾算法,Sutton提出基于時間差分的TD算法,它在每一步的學習中利用下式更新狀態(tài)值:V(st)<-V(st)+art+1+丫V(st+1)-V(st)(6)TD法是一類專門用于預測問題的漸進學習過程,傳統的學習預測方法是由預測值和實際值之間的誤差來修正參數的

8、,而TD法是由相繼預測間的誤差值來完成的,當隨著時間的推移預測有變化時就進行學習.三.強化學習面臨的主要問題我們上面討論的強化學習模型是最簡單的有限狀態(tài)、離散狀態(tài)、離散時間模型,而實際應用中環(huán)境比這種模型復雜得多,尤其在狀態(tài)數增多后經典的強化學習算法便會面臨維數災難112】,另外馬爾科夫模型是假設所有狀態(tài)都已經知道,而實際上在學習過程中會出現新的未知狀態(tài),這時為非馬爾科夫模型【6這些問題用經典的數學模型狀態(tài)將無法實現.目前強化學習的主要問題就是如何尋找新的數學模型,來實現環(huán)境狀態(tài)的未知和維數爆炸等問題.四.當前強化學習研究動態(tài)目前強化學習的研究主要集中在解決非馬爾科夫模型和解決維數爆炸問題等.

9、本文著重介紹POMDP模型、HRL模型以及由POMDP模型衍生的PSR模型等.1 .局部感知狀態(tài)馬爾科夫模型(POMDP解決非馬爾科夫環(huán)境問題:在經典馬爾科夫模型上增加狀態(tài)預測,并對每個狀態(tài)設置一個信度b,用于表示該狀態(tài)的可信度,在決定動作時使用b作為依據,同時根據觀察值進行狀態(tài)預測,這樣很好的解決一些非馬爾科夫模型.2.分層強化學習模型(HRL解決維數爆炸問題:目前解決“維數災難問題方法大致有四種:狀態(tài)聚類法【14】、有限策略空間搜索法【15】、值函數近似法【16】、和分層強化學習【12】分層強化學習是通過在強化學習的根底上增加“抽象機制,把整體任務分解為不同層次上的子任務,使每個子任務在規(guī)

10、模較小的子空間中求解,并且求得的子任務策略可以復用,從而加快問題的求解速度.五.我的觀點無論是傳統的馬爾科夫模型還是最新的POMDP、HRL理論,并沒有哪一個算法可以適用于所有場合,它們都只是在某個特定的環(huán)境中有其特長.為此,我們的工作就是分析每個算法的優(yōu)缺點,通過比擬了解各個算法的使用場合.六.參考文獻:1 R.S.SuttonandA.G.Barto.ReinforcementLearningM.London:MITpress,1998.2 KaelblingLP,LittmanML,MooreAW.ReinforcementLearning:Asurvey.JournalofArtifi

11、cialIntelligenceResearch,1996,4:2372853 SuttonRS,BartoAG.ReinforcementLearning,Cambridge,MA:TheMITPress,19984 GerhardWeiss.MultiagentSystems:AModernApproachtoDistributedArtificialIntelligence.Cambridge,MA:TheMITPress,19995 TsitsiklisJN.AsynchronousstochasticapproximationandQ-learning.MachineLearning

12、,1994,16(3):1852026 LovejoyWS.AsurveyofalgotithmicmethodsforpartiallyobservedMarkovdecisionprocesss.AnnalsofOperationsResearch,1991,28:4765【7】王桂,周志華,周傲英.機器學習及其應用.北京:清華大學出版社,20068 McCullochW,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity.BulletinofMathematicalBiophysics,1943,5【9】洪家榮.機器學習一

13、一回憶與展望.計算機科學,1991,(02):1-8【10】張汝波.強化學習理論及應用.哈爾濱:哈爾濱工程大學出版社,2001【11】高陽,陳世福,陸鑫.強化學習研究綜述.自動化學報.2004,30(1):86-10012BartoAG,MahadevanS.RecentAdvancesinHierarchicalReinforcementLearning.DiscreteEventDynamicSystems:TheoryandApplications,2003,13(4):41-77【13】KlopfAH.Aneuronalmodelofclassicalconditioning.Psyc

14、hobiology,1988,16(2):85-12514SinghSP,JaakolaT,JordanMI.ReinforcementLearningwithSoftStateAggregation.NeuralInformationProcessingSystem7,Cambridge,Massachusetts:MITPress,1995:361-36815MoriartyD,SchultzA,GrefenstetteJ.EvolutionaryAlgotithmsforReinformentLearning.JournalofArtificialIntelligenceResearch

15、,1999,11(1):241-27616BertsekasDP,TsitsiklisJN.Neuro-dynamicProgrammingBelmont:AthenaScientific,1996本課題要研究或解決的問題和擬采用的研究手段途徑:本課題主要有三大任務:一是學習強化學習的各種經典算法,比擬各個算法的特征和使用場合.二是學習POMDP、PSR、HRL幾個新的數學模型.三是提出創(chuàng)新,對于PSR模型提出算法創(chuàng)新.對于第一個任務,主要是查閱文獻,學習幾種經典算法,并編程對算法進行比擬.進行算法比擬時,主要考慮以下幾方面:1 .算法的收斂速度2 .算法收斂后的穩(wěn)定性3 .算法在規(guī)模擴大后的

16、泛化水平4 .算法在不同環(huán)境下的適應水平5 .改變算法的參數,考察參數對算法性能的影響.采用的研究手段主要是進行橫向比擬和縱向比擬1 .縱向比擬:對于同一個問題,使用不同的算法,比擬各算法的性能2 .橫向比擬:對于同一個問題同一個算法,改變算法的參數或問題規(guī)?;颦h(huán)境特征,比擬參數對算法的影響.第二個任務,對于POMDP、PSR、HRL的模型學習,主要以閱讀文獻為主,通過查閱各種資料總結幾種模型的定義、根本框架.最后在論文中加以歸納.第三個任務著重于創(chuàng)新性要求,本課題主要是針對PSR模型下算法的創(chuàng)新.通過學習PSR下的各種算法,對算法提出改良點,并能驗證改良的算法性能.一1.承租人擅自將房屋轉租、L;轉讓或轉借的租賃期共年同、收回房屋:房屋租賃合同出租方甲方:XXX,男/女,XXXX年XX月XX日出生,身份證號XXXXXXXX承租方乙方:XXX,男/女,XXXX年XX月XX日出生,身份證號XXXXXXXX甲、乙雙方就房屋租賃事宜,達成如下協議:一、甲方將位于XX市XX街道XX小區(qū)X號|ifXXXX號的房屋出租給乙方居住使用,租賃期限自XX年XX月XX日至XX年XX月XX日,計X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論