基于決策理論的多智能體系統(tǒng)規(guī)劃問題研究.pdf_第1頁
已閱讀1頁,還剩117頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、不確定性環(huán)境下的決策和規(guī)劃是人工智能的基本問題之一。決策論為這類問題的最優(yōu)化求解提供了標(biāo)準(zhǔn)的理論框架。近年來,單智能體的決策理論取得了長足的發(fā)展,經(jīng)典的MDP和POMDP算法已經(jīng)能求解較大規(guī)模的問題。但多智能體的分布式?jīng)Q策卻依然處在研究的初級階段,通常只能求解極小規(guī)模的問題。作為馬爾科夫決策理論在多智能體系統(tǒng)上的擴展,DEC-POMDP模型涵蓋了大多數(shù)的多智能體合作問題,但同時也具有極高的問題復(fù)雜度(NEXP難)。因為在多智能體系統(tǒng)中,

2、每個智能體不僅要考慮環(huán)境的變化還需要關(guān)注其他智能體的可能行為。DEC-POMDP的復(fù)雜度具體表現(xiàn)在求解上就是問題具有極大的策略空間。如何對巨大的策略空間進行表示和推理并從中找出最優(yōu)的策略是DEC-POMDP問題求解的關(guān)鍵。受限于問題復(fù)雜度,精確算法通常只能求解極小規(guī)模的問題。因此,本文研究的重點是為一般性的DEC-POMDP問題設(shè)計高效的近似算法。從求解方式上看,大體可分為在線和離線算法兩類。本文在這兩類算法上均有相應(yīng)的工作,同時還求解

3、了一類更具挑戰(zhàn)的無模型規(guī)劃問題。在線規(guī)劃算法在智能體與環(huán)境交互的過程中進行規(guī)劃,因此只需要考慮智能體當(dāng)前遇到的情況。由于每次執(zhí)行過程中,智能體實際遇到的情況只是各種可能中很小的一部分。而且在線算法只需要為智能體當(dāng)前的行動作出選擇,而不需要計算完整的策略。因此在大規(guī)模問題求解上,在線算法更具有優(yōu)勢。同時,在線算法還能夠更加方便的完成智能體之間的通訊,從而提高決策質(zhì)量。但在線算法本身也有需要解決的問題。因為智能體需要實時的對環(huán)境做出反應(yīng),因

4、此每次可用于規(guī)劃的時間非常的有限。在DEC-POMDP問題中,每個智能體獲得的是各自不同的局部觀察,所有需要一個分布式的計算框架來保證智能體行為之間的協(xié)調(diào)。為了與其他智能體進行合作,每個智能體必須把握其他智能體所有可能擁有的信息,而這些信息隨著時間的增加會不斷的暴漲。同時由于帶寬、環(huán)境和計算資源的限制,智能體之間的通訊往往是受限的。因此如何最大限度的發(fā)揮通訊的效用也是在線算法需要解決的問題。為解決這些問題,本文提出的MAOP-COMM算

5、法至少具有以下幾點創(chuàng)新:一、提出了基于線性規(guī)劃的快速策略搜索算法用于滿足在線算法的時間需求;二、提出了基于獨立維護的共享信念池的分布式規(guī)劃保證了智能體之間的協(xié)調(diào);三、提出了基于策略等價的歷史信息歸并方法使得智能體能在有限的存儲空間中保留對后繼決策更加有用的信息;四、提出了基于信念不一致性檢測的通訊策略來更加有效的使用通訊確保了信念池信息的精度從而提高決策效果。從實驗結(jié)果上看,MAOP-COMM算法在各種DEC-POMDP的測試問題中具有

6、相當(dāng)出色的表現(xiàn)離線規(guī)劃算法在智能體與環(huán)境進行交互前,通過給定的模型計算出完整的策略。其主要優(yōu)勢在于有充足的時間來進行規(guī)劃,而且不需要考慮分布式?jīng)Q策,只要求計算出的策略能被每個智能體進行分布式的執(zhí)行。其主要劣勢在于需要完整的考慮整個策略空間,具有極高的計算量。當(dāng)前,最為先進的離線規(guī)劃算法采用的是將動態(tài)規(guī)劃和啟發(fā)式搜索相結(jié)合的辦法來構(gòu)建一套完整的策略。對于大規(guī)模問題,其主要瓶頸在于每一步迭代都會產(chǎn)生極其多的子策略。這些子策略會快速的耗盡所有

7、的存儲空間或者導(dǎo)致運算嚴(yán)重超時。為了解決這一問題,本文在前人工作的基礎(chǔ)上提出了PBPG和TBDP這兩個算法。PBPG算法的主要創(chuàng)新點在于徹底的改變了之前先枚舉再選擇的策略生成模式,直接構(gòu)建最優(yōu)化的模型為每個信念點直接生成所需的策略。因此在動態(tài)規(guī)劃過程中,備選的策略不再快速的塞滿內(nèi)存空間,同時每一步迭代后可保留的策略數(shù)大大增加,并最終大幅度的提高了規(guī)劃策略的質(zhì)量。從實驗結(jié)果上看,PBPG算法在運行時間上比之前最好的算法加快了一個數(shù)量級,并

8、隨著可保留策略數(shù)的增加近似最優(yōu)的求解了大部分的實驗測試問題。TBDP算法主要針對的是大狀態(tài)DEC-POMDP問題。其主要的創(chuàng)新點是使用基于測試的方法只為可達的狀態(tài)和需要使用到的策略計算值函數(shù)。之前的算法,籠統(tǒng)的為所有的狀態(tài)和策略計算值函數(shù),因此帶來了極高的計算量,無法求解大規(guī)模問題。TBDP算法的另一個創(chuàng)新點是提出了具有層次結(jié)構(gòu)和隨機參數(shù)的新的策略表示方法。該方法能夠?qū)⒉呗陨赊D(zhuǎn)變?yōu)椴呗詤?shù)的最優(yōu)化過程,從而進一步的提高了策略求解的效率

9、。同時,TBDP算法可方便的運行在多處理器的并行分布式計算資源上。在實驗中,TBDP算法首次求解了上萬個狀態(tài)的DEC-POMDP問題。無論是離線算法還是在線算法,在問題求解的時候都需要用到完整的DEC-POMDP模型。但在大規(guī)模的現(xiàn)實問題中,完整的DEC-POMDP模型并不容易獲得。主要原因:一、環(huán)境和智能體之間有復(fù)雜的物理關(guān)系,無法準(zhǔn)確的用單一的概率函數(shù)來進行描述;二、即便可以通過相應(yīng)的手段測量出概率值,太多的數(shù)據(jù)也將無法存儲和表示,

10、更無法用來計算策略。因此,設(shè)計能直接與環(huán)境進行交互并獲得策略的規(guī)劃算法就成為求解此類問題的關(guān)鍵。因此本文還提出了基于展開式采樣的蒙特卡羅規(guī)劃算法DecRSPI。該算法僅需要能用于采樣的環(huán)境或者仿真器就能直接計算策略,而無需事先建立完整的DEC-POMDP模型。更重要的是該算法有別于之前的算法具有相對于智能體個數(shù)的線性的時間和空間復(fù)雜度。在實驗中,DecRSPI算法順利的求解了超過20個智能體的問題,而之前的算法一般只能求解2到3個智能體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論