基于馬爾可夫決策理論的規(guī)劃問(wèn)題的研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-12 格式：pdf 頁(yè)數(shù)：126 大?。?.16MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩125頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近年來(lái)，智能體及多智能體規(guī)劃問(wèn)題成為人工智能領(lǐng)域新的研究熱點(diǎn)，且有著廣泛的應(yīng)用前景。本文針對(duì)馬爾可夫決策過(guò)程及其相關(guān)理論展開(kāi)研究，對(duì)這些決策理論在接觸現(xiàn)實(shí)世界的應(yīng)用時(shí)所面臨的問(wèn)題及解決方法做了一定的探討，最后對(duì)相關(guān)的一類(lèi)基本決策算法進(jìn)行了一定的理論分析和改進(jìn)。主要涉及到以下幾個(gè)方面的工作： (1)較為系統(tǒng)的研究了與智能體及多智能體不確定性規(guī)劃相關(guān)的幾類(lèi)基礎(chǔ)決策模型及算法。模型部分，首先是最基本的馬爾可夫決策模型，然后是

2、在此基礎(chǔ)上加入觀察不確定性的部分可觀察馬爾可夫決策模型，以及進(jìn)一步加入多智能體合作的分布式部分可觀察馬爾可夫決策模型和多智能體對(duì)抗的部分可觀察的隨機(jī)博弈模型。算法部分，針對(duì)上述幾類(lèi)模型，均按照后向迭代和前向搜索兩大類(lèi)進(jìn)行了對(duì)比分析。最后，進(jìn)一步討論了與時(shí)間抽象相關(guān)的半馬爾可夫決策模型及Option理論，這一理論是設(shè)計(jì)分等級(jí)的規(guī)劃框架及算法的基礎(chǔ)。 (2)Robocup仿真2D提供了一個(gè)研究大規(guī)模不確定環(huán)境下多智能體規(guī)劃問(wèn)題的標(biāo)準(zhǔn)

3、測(cè)試平臺(tái)。結(jié)合對(duì)該平臺(tái)的一些必要的說(shuō)明，分析了在這種接近現(xiàn)實(shí)世界應(yīng)用的問(wèn)題中，進(jìn)行整體規(guī)劃所需要處理的一些子問(wèn)題的設(shè)計(jì)方法，并通過(guò)結(jié)合現(xiàn)有馬爾可夫決策過(guò)程相關(guān)理論對(duì)這些問(wèn)題進(jìn)行建模及分析，給出該平臺(tái)更一般的研究意義。 (3)Option理論對(duì)應(yīng)了時(shí)間抽象的概念，它為馬爾可夫決策理論更多的接觸現(xiàn)實(shí)世界應(yīng)用提供一個(gè)分等級(jí)規(guī)劃的研究方向。針對(duì)類(lèi)似Robocup仿真2D這種帶有觀察不確定性的大規(guī)模多智能體系統(tǒng)的規(guī)劃問(wèn)題，在部分可觀察隨機(jī)

4、博弈模型的基礎(chǔ)上，結(jié)合策略啟發(fā)，信念狀態(tài)壓縮，因子化表示法及Option理論，給出了一個(gè)新的基于動(dòng)態(tài)行為生成器的決策框架，并在此基礎(chǔ)上設(shè)計(jì)了一個(gè)以快速尋找可行解為目標(biāo)的實(shí)時(shí)啟發(fā)式搜索算法。最后，結(jié)合仿真2D這一標(biāo)準(zhǔn)平臺(tái)，對(duì)這一決策框架及算法的實(shí)用效果進(jìn)行了檢驗(yàn)。 (4)基于Option的理論分等級(jí)規(guī)劃時(shí)，大規(guī)模問(wèn)題中子策略的求解效率也至關(guān)重要。實(shí)時(shí)動(dòng)態(tài)規(guī)劃是求解馬爾可夫決策過(guò)程的一類(lèi)較新的方法。這類(lèi)方法除了具有求解效率上的優(yōu)勢(shì)外

5、，還很容易被設(shè)計(jì)成anytime的工作方式。實(shí)時(shí)動(dòng)態(tài)規(guī)劃類(lèi)算法結(jié)合了啟發(fā)式搜索與值迭代的技術(shù)，算法的核心問(wèn)題是分支選擇策略與收斂判據(jù)。分支選擇策略決定了值迭代的收斂速度，收斂判據(jù)用以判定解的最優(yōu)性。通過(guò)對(duì)啟發(fā)式函數(shù)上界及下界的分析及利用，給出了一個(gè)新的收斂判據(jù)，稱(chēng)為最優(yōu)行動(dòng)判據(jù)，以及一個(gè)更適合實(shí)時(shí)算法的分支選擇策略。最優(yōu)行動(dòng)判據(jù)可以更早的標(biāo)定當(dāng)前狀態(tài)滿足精度要求的最優(yōu)行動(dòng)供立即執(zhí)行，而新的分支選擇策略可以加快這一判據(jù)的滿足。并據(jù)此設(shè)計(jì)了

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于馬爾可夫決策理論的規(guī)劃問(wèn)題的研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于馬爾可夫決策理論的規(guī)劃問(wèn)題的研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載