基于梯度逼近方法的Markov系統(tǒng)及其在通信中的應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁(yè)數(shù)：104 大?。?.53MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于梯度逼近方法的Markov系統(tǒng)及其在通信中的應(yīng)用.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩103頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息科學(xué)技術(shù)的迅猛發(fā)展和廣泛應(yīng)用，出現(xiàn)了大量的復(fù)雜隨機(jī)動(dòng)態(tài)系統(tǒng)，比如在通訊網(wǎng)絡(luò)(Internet及無(wú)線網(wǎng)絡(luò))，柔性制造，智能機(jī)器人，交通管理等領(lǐng)域。目前，該類系統(tǒng)的性能優(yōu)化問題逐漸成為很多領(lǐng)域的研究熱點(diǎn)。這些領(lǐng)域包括控制系統(tǒng)領(lǐng)域，運(yùn)籌學(xué)領(lǐng)域，計(jì)算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域等等。不同領(lǐng)域采用不同的方法來(lái)解決該問題，如控制系統(tǒng)領(lǐng)域的離散事件動(dòng)態(tài)系統(tǒng)的攝動(dòng)分析方法，運(yùn)籌學(xué)領(lǐng)域的Markov決策過程理論，計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的強(qiáng)化學(xué)習(xí)(

2、或神經(jīng)元?jiǎng)討B(tài)規(guī)劃)方法。雖然這些方法對(duì)系統(tǒng)結(jié)構(gòu)有著不同的描述，但這些方法都是圍繞著同一個(gè)目的展開，即尋找一個(gè)“最好的策略”來(lái)優(yōu)化系統(tǒng)的性能。近幾年來(lái)，一種基于靈敏度觀點(diǎn)的優(yōu)化方法將以上不同領(lǐng)域的不同方法有機(jī)的統(tǒng)一起來(lái)。該方法以性能勢(shì)理論為基礎(chǔ)，通過兩種性能靈敏度公式：性能差公式和性能導(dǎo)數(shù)公式，將攝動(dòng)分析方法，Markov決策過程理論以及強(qiáng)化學(xué)習(xí)方法統(tǒng)一在同一框架下。該方法不僅可以基于模型采用理論計(jì)算的方法來(lái)尋找系統(tǒng)的最優(yōu)策略，

3、而且可以在系統(tǒng)模型參數(shù)未知的情況下基于一條樣本軌道在線地改進(jìn)系統(tǒng)性能。因而在某種程度上它解決了該類系統(tǒng)的“維數(shù)災(zāi)”和“模型災(zāi)”問題。到目前為止，該方法在自適應(yīng)Markov報(bào)酬過程上的應(yīng)用還沒有被研究，本文在該方法的基礎(chǔ)上，研究了自適應(yīng)Markov報(bào)酬過程的靈敏度分析，得到了性能差和性能導(dǎo)數(shù)公式，以及在單樣本軌道上性能導(dǎo)數(shù)的估計(jì)式。基于仿真的梯度逼近方法是基于一種可以基于單樣本軌道在線的改進(jìn)系統(tǒng)性能的梯度逼近方法。這個(gè)方法首先參

4、數(shù)化策略。然后根據(jù)仿真出來(lái)的樣本軌道估計(jì)出性能測(cè)度關(guān)于參數(shù)向量的梯度；最后再沿悌度的方向改進(jìn)參數(shù)。利用參數(shù)化策略，減少了未知參數(shù)的個(gè)數(shù)，避開了“維數(shù)災(zāi)”的問題；通過仿真避開了“模型災(zāi)”的問題。參數(shù)的更新時(shí)刻的不同，這個(gè)方法分為兩個(gè)傳統(tǒng)的算法。再生環(huán)梯度逼近算法是每到更新點(diǎn)時(shí)，即更新一次參數(shù)，每步梯度逼近算法是每次狀態(tài)轉(zhuǎn)移都更新一次參數(shù)。這兩個(gè)算法雖然很好的避開了“維數(shù)災(zāi)”和“模型災(zāi)”的問題，但它們也有其局限的地方：在再生環(huán)梯度逼近算法中

5、，狀態(tài)空間比較大時(shí)，再生環(huán)相應(yīng)增大，更新緩慢，導(dǎo)致較低的計(jì)算效率，同時(shí)帶來(lái)比較大的方差；在每步梯度逼近算法中，由于每做一次轉(zhuǎn)移，算法進(jìn)行一次更新，這樣計(jì)算量就會(huì)比較大，甚至有些實(shí)際系統(tǒng)是無(wú)法實(shí)現(xiàn)的。本文為了解決現(xiàn)有方法的這些不足，提出了Markov報(bào)酬過程、自適應(yīng)Markov報(bào)酬過程以及隨機(jī)策略的Markov決策過程的雙時(shí)間尺度梯度逼近算法。算法主要思想是，在給定的更新周期上更新參數(shù)，而這個(gè)給定的更新周期序列是由兩個(gè)時(shí)間尺度通過計(jì)算獲得

6、的，并且是個(gè)遞增序列。算法的特點(diǎn)是開始更新較快，隨后更新頻率慢慢降低。這個(gè)特點(diǎn)帶來(lái)的好處就是，在最初的更新中，算法結(jié)合了每步逼近算法的優(yōu)點(diǎn)，更新較快，并且方差很小，有助于參數(shù)較快地收斂到最優(yōu)值附近，同時(shí)將方差降低到一個(gè)很小的范圍內(nèi)；在隨后的更新中，算法更新頻率降低，經(jīng)過很多次的狀態(tài)轉(zhuǎn)移參數(shù)才會(huì)更新一次，一次更新中獲得的信息量比較多，有助于估值準(zhǔn)確性的提高，提高了收斂精度，同時(shí)降低了計(jì)算量。并且在較弱的假設(shè)下，從理論上證明了算法的收斂性。

7、無(wú)線多媒體通信網(wǎng)絡(luò)問題是近期的研究熱點(diǎn)，目前仍存在大量瓶頸問題。本文在上述理論研究的基礎(chǔ)上，研究OVSF—CDMA系統(tǒng)中動(dòng)態(tài)編碼分配的呼叫容許接入控制問題和有QoS指標(biāo)約束下的CDMA系統(tǒng)的呼叫容許接入控制問題的建模和優(yōu)化。通過將問題建模為Markov決策過程，提出一種在線學(xué)習(xí)估計(jì)策略梯度，隨機(jī)逼近優(yōu)化容許接入策略的在線算法，利用雙時(shí)間尺度的技術(shù)降低計(jì)算復(fù)雜度，提高收斂速度。并且這個(gè)算法不依賴于系統(tǒng)的具體參數(shù)，具有較強(qiáng)的適應(yīng)性

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于梯度逼近方法的Markov系統(tǒng)及其在通信中的應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于梯度逼近方法的Markov系統(tǒng)及其在通信中的應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載