版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著信息科學(xué)技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,出現(xiàn)了大量的復(fù)雜隨機(jī)動態(tài)系統(tǒng),比如在通訊網(wǎng)絡(luò)(Internet及無線網(wǎng)絡(luò)),柔性制造,智能機(jī)器人,交通管理等領(lǐng)域。目前,該類系統(tǒng)的性能優(yōu)化問題逐漸成為很多領(lǐng)域的研究熱點。這些領(lǐng)域包括控制系統(tǒng)領(lǐng)域,運籌學(xué)領(lǐng)域,計算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域等等。不同領(lǐng)域采用不同的方法來解決該問題,如控制系統(tǒng)領(lǐng)域的離散事件動態(tài)系統(tǒng)的攝動分析方法,運籌學(xué)領(lǐng)域的Markov決策過程理論,計算機(jī)科學(xué)和人工智能領(lǐng)域的強(qiáng)化學(xué)習(xí)(
2、或神經(jīng)元動態(tài)規(guī)劃)方法。雖然這些方法對系統(tǒng)結(jié)構(gòu)有著不同的描述,但這些方法都是圍繞著同一個目的展開,即尋找一個“最好的策略”來優(yōu)化系統(tǒng)的性能。 近幾年來,一種基于靈敏度觀點的優(yōu)化方法將以上不同領(lǐng)域的不同方法有機(jī)的統(tǒng)一起來。該方法以性能勢理論為基礎(chǔ),通過兩種性能靈敏度公式:性能差公式和性能導(dǎo)數(shù)公式,將攝動分析方法,Markov決策過程理論以及強(qiáng)化學(xué)習(xí)方法統(tǒng)一在同一框架下。該方法不僅可以基于模型采用理論計算的方法來尋找系統(tǒng)的最優(yōu)策略,
3、而且可以在系統(tǒng)模型參數(shù)未知的情況下基于一條樣本軌道在線地改進(jìn)系統(tǒng)性能。因而在某種程度上它解決了該類系統(tǒng)的“維數(shù)災(zāi)”和“模型災(zāi)”問題。到目前為止,該方法在自適應(yīng)Markov報酬過程上的應(yīng)用還沒有被研究,本文在該方法的基礎(chǔ)上,研究了自適應(yīng)Markov報酬過程的靈敏度分析,得到了性能差和性能導(dǎo)數(shù)公式,以及在單樣本軌道上性能導(dǎo)數(shù)的估計式。 基于仿真的梯度逼近方法是基于一種可以基于單樣本軌道在線的改進(jìn)系統(tǒng)性能的梯度逼近方法。這個方法首先參
4、數(shù)化策略。然后根據(jù)仿真出來的樣本軌道估計出性能測度關(guān)于參數(shù)向量的梯度;最后再沿悌度的方向改進(jìn)參數(shù)。利用參數(shù)化策略,減少了未知參數(shù)的個數(shù),避開了“維數(shù)災(zāi)”的問題;通過仿真避開了“模型災(zāi)”的問題。參數(shù)的更新時刻的不同,這個方法分為兩個傳統(tǒng)的算法。再生環(huán)梯度逼近算法是每到更新點時,即更新一次參數(shù),每步梯度逼近算法是每次狀態(tài)轉(zhuǎn)移都更新一次參數(shù)。這兩個算法雖然很好的避開了“維數(shù)災(zāi)”和“模型災(zāi)”的問題,但它們也有其局限的地方:在再生環(huán)梯度逼近算法中
5、,狀態(tài)空間比較大時,再生環(huán)相應(yīng)增大,更新緩慢,導(dǎo)致較低的計算效率,同時帶來比較大的方差;在每步梯度逼近算法中,由于每做一次轉(zhuǎn)移,算法進(jìn)行一次更新,這樣計算量就會比較大,甚至有些實際系統(tǒng)是無法實現(xiàn)的。本文為了解決現(xiàn)有方法的這些不足,提出了Markov報酬過程、自適應(yīng)Markov報酬過程以及隨機(jī)策略的Markov決策過程的雙時間尺度梯度逼近算法。算法主要思想是,在給定的更新周期上更新參數(shù),而這個給定的更新周期序列是由兩個時間尺度通過計算獲得
6、的,并且是個遞增序列。算法的特點是開始更新較快,隨后更新頻率慢慢降低。這個特點帶來的好處就是,在最初的更新中,算法結(jié)合了每步逼近算法的優(yōu)點,更新較快,并且方差很小,有助于參數(shù)較快地收斂到最優(yōu)值附近,同時將方差降低到一個很小的范圍內(nèi);在隨后的更新中,算法更新頻率降低,經(jīng)過很多次的狀態(tài)轉(zhuǎn)移參數(shù)才會更新一次,一次更新中獲得的信息量比較多,有助于估值準(zhǔn)確性的提高,提高了收斂精度,同時降低了計算量。并且在較弱的假設(shè)下,從理論上證明了算法的收斂性。
7、 無線多媒體通信網(wǎng)絡(luò)問題是近期的研究熱點,目前仍存在大量瓶頸問題。本文在上述理論研究的基礎(chǔ)上,研究OVSF—CDMA系統(tǒng)中動態(tài)編碼分配的呼叫容許接入控制問題和有QoS指標(biāo)約束下的CDMA系統(tǒng)的呼叫容許接入控制問題的建模和優(yōu)化。通過將問題建模為Markov決策過程,提出一種在線學(xué)習(xí)估計策略梯度,隨機(jī)逼近優(yōu)化容許接入策略的在線算法,利用雙時間尺度的技術(shù)降低計算復(fù)雜度,提高收斂速度。并且這個算法不依賴于系統(tǒng)的具體參數(shù),具有較強(qiáng)的適應(yīng)性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 混沌系統(tǒng)同步方法研究及其在保密通信中的應(yīng)用.pdf
- 序列蒙特卡羅方法及其在通信中的應(yīng)用.pdf
- 混沌系統(tǒng)同步及其在保密通信中的應(yīng)用.pdf
- 混沌同步及其在通信中的應(yīng)用.pdf
- 混沌系統(tǒng)同步及其在通信中的應(yīng)用研究.pdf
- 混沌同步方法及其在保密通信中的應(yīng)用研究.pdf
- 混沌及其在保密通信中的應(yīng)用.pdf
- 算子半群的逼近及其在參數(shù)連續(xù)Markov鏈中的應(yīng)用.pdf
- 分?jǐn)?shù)階混沌系統(tǒng)同步及其在保密通信中的應(yīng)用.pdf
- 混沌電路的控制及其在通信中的應(yīng)用.pdf
- 基于UDP的可靠通信協(xié)議及其在衛(wèi)星應(yīng)急通信中的應(yīng)用.pdf
- 微波混沌電路及其在通信中的應(yīng)用.pdf
- 遺傳算法及其在通信中的應(yīng)用.pdf
- 超混沌Chen系統(tǒng)的同步及其在保密通信中的應(yīng)用.pdf
- 混沌系統(tǒng)的控制與同步及其在保密通信中的應(yīng)用.pdf
- 超混沌系統(tǒng)的生成、同步及其在保密通信中的應(yīng)用.pdf
- 量子Zeon效應(yīng)及其在量子通信中的應(yīng)用.pdf
- 自相似隨機(jī)過程及其在通信中的應(yīng)用.pdf
- 量子Grover算法及其在現(xiàn)代通信中的應(yīng)用.pdf
- 序列偶及其在擴(kuò)頻通信中的應(yīng)用.pdf
評論
0/150
提交評論