基于梯度逼近方法的Markov系統及其在通信中的應用.pdf_第1頁
已閱讀1頁,還剩103頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著信息科學技術的迅猛發(fā)展和廣泛應用,出現了大量的復雜隨機動態(tài)系統,比如在通訊網絡(Internet及無線網絡),柔性制造,智能機器人,交通管理等領域。目前,該類系統的性能優(yōu)化問題逐漸成為很多領域的研究熱點。這些領域包括控制系統領域,運籌學領域,計算機科學領域以及人工智能領域等等。不同領域采用不同的方法來解決該問題,如控制系統領域的離散事件動態(tài)系統的攝動分析方法,運籌學領域的Markov決策過程理論,計算機科學和人工智能領域的強化學習(

2、或神經元動態(tài)規(guī)劃)方法。雖然這些方法對系統結構有著不同的描述,但這些方法都是圍繞著同一個目的展開,即尋找一個“最好的策略”來優(yōu)化系統的性能。 近幾年來,一種基于靈敏度觀點的優(yōu)化方法將以上不同領域的不同方法有機的統一起來。該方法以性能勢理論為基礎,通過兩種性能靈敏度公式:性能差公式和性能導數公式,將攝動分析方法,Markov決策過程理論以及強化學習方法統一在同一框架下。該方法不僅可以基于模型采用理論計算的方法來尋找系統的最優(yōu)策略,

3、而且可以在系統模型參數未知的情況下基于一條樣本軌道在線地改進系統性能。因而在某種程度上它解決了該類系統的“維數災”和“模型災”問題。到目前為止,該方法在自適應Markov報酬過程上的應用還沒有被研究,本文在該方法的基礎上,研究了自適應Markov報酬過程的靈敏度分析,得到了性能差和性能導數公式,以及在單樣本軌道上性能導數的估計式。 基于仿真的梯度逼近方法是基于一種可以基于單樣本軌道在線的改進系統性能的梯度逼近方法。這個方法首先參

4、數化策略。然后根據仿真出來的樣本軌道估計出性能測度關于參數向量的梯度;最后再沿悌度的方向改進參數。利用參數化策略,減少了未知參數的個數,避開了“維數災”的問題;通過仿真避開了“模型災”的問題。參數的更新時刻的不同,這個方法分為兩個傳統的算法。再生環(huán)梯度逼近算法是每到更新點時,即更新一次參數,每步梯度逼近算法是每次狀態(tài)轉移都更新一次參數。這兩個算法雖然很好的避開了“維數災”和“模型災”的問題,但它們也有其局限的地方:在再生環(huán)梯度逼近算法中

5、,狀態(tài)空間比較大時,再生環(huán)相應增大,更新緩慢,導致較低的計算效率,同時帶來比較大的方差;在每步梯度逼近算法中,由于每做一次轉移,算法進行一次更新,這樣計算量就會比較大,甚至有些實際系統是無法實現的。本文為了解決現有方法的這些不足,提出了Markov報酬過程、自適應Markov報酬過程以及隨機策略的Markov決策過程的雙時間尺度梯度逼近算法。算法主要思想是,在給定的更新周期上更新參數,而這個給定的更新周期序列是由兩個時間尺度通過計算獲得

6、的,并且是個遞增序列。算法的特點是開始更新較快,隨后更新頻率慢慢降低。這個特點帶來的好處就是,在最初的更新中,算法結合了每步逼近算法的優(yōu)點,更新較快,并且方差很小,有助于參數較快地收斂到最優(yōu)值附近,同時將方差降低到一個很小的范圍內;在隨后的更新中,算法更新頻率降低,經過很多次的狀態(tài)轉移參數才會更新一次,一次更新中獲得的信息量比較多,有助于估值準確性的提高,提高了收斂精度,同時降低了計算量。并且在較弱的假設下,從理論上證明了算法的收斂性。

7、 無線多媒體通信網絡問題是近期的研究熱點,目前仍存在大量瓶頸問題。本文在上述理論研究的基礎上,研究OVSF—CDMA系統中動態(tài)編碼分配的呼叫容許接入控制問題和有QoS指標約束下的CDMA系統的呼叫容許接入控制問題的建模和優(yōu)化。通過將問題建模為Markov決策過程,提出一種在線學習估計策略梯度,隨機逼近優(yōu)化容許接入策略的在線算法,利用雙時間尺度的技術降低計算復雜度,提高收斂速度。并且這個算法不依賴于系統的具體參數,具有較強的適應性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論