基于分層強化學習的RoboCup 3D球隊的設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩81頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、當前,隨著計算機網(wǎng)絡技術的迅速發(fā)展,計算機快速轉向開放的、網(wǎng)絡平臺的、協(xié)同工作方式。基于Agent理論和技術尤其是MAS(Multi-Agent Systems)的理論和技術給我們帶來了設計和實現(xiàn)分布與開放環(huán)境中運行的軟件系統(tǒng)一個全新模式。 機器人世界杯足球賽(The Robot World Cup,簡稱RoboCup),是典型的MAS,是MAS標準問題,可以用來評價各種不同MAS問題求解的理論、算法和體系結構。 Rob

2、oCup仿真球隊分為2D和3D。2D仿真的環(huán)境是二維的,且其物理模型不是真實的,在仿真中容易預測,另外,其仿真不容易擴充,但3D仿真采用三維環(huán)境和真實的物理模型,使其運動難以預測,并且容易配置來進行其它仿真,使其研究成果更容易轉化到實際應用中,所以,3D的研究成為MAS的研究熱點。要建立一支RoboCup 3D的仿真球隊,主要有兩方面的工作:確定良好的程序框架及針對所要解決的問題選擇合適的學習算法。本文的主要工作: (1)提出分

3、層學習的框架。將系統(tǒng)分為三層:交流層、技術層和控制層。下層為上層提供服務,且對上層透明,因而易于擴展,降低了在連續(xù)狀態(tài)和動作空間下學習的難度。交流層提供與服務器的信息交流,包括球員從服務器端接收信息和球員向服務器發(fā)送動作指令;技術層提供球員的個人技能和球隊的合作技能。首先在原始的狀態(tài)空間學習球員的基本個人技術,然后在已有的個人技術上學習高級的個人技能,如帶球,在已有的個人技術基礎上再學習團隊的合作技術,如傳球;控制層提供球員的推理功能,

4、球員先根據(jù)當前的策略狀態(tài)從隊行為集中選擇一些隊行為,然后將這些隊行為仿真推進幾步,將仿真結果進行評估,然后根據(jù)評估結果再選擇一個隊行為,球員根據(jù)隊行為選擇自己的動作,然后將此動作送服務器執(zhí)行。 (2)HEDGER能在RoboCup 3D仿真所提供的連續(xù)的狀態(tài)和動作空間進行學習,但是在3D仿真如此大的狀態(tài)和動作空間下進行學習,其計算量太大,難以在線實時學習。因此,我們對HEDGER學習算法進行了改進,引入脊回歸技術,通過調(diào)整脊參數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論