深度強化學(xué)習(xí)中文綜述-計算機學(xué)報

上傳人：奔*** IP屬地：河北更新時間：2024-03-13 格式：pdf 頁數(shù)：28 大小：1.24MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩27頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第 40 卷計算機學(xué) 報 Vol. 40 2017 年論文在線出版號 No.1 CHINESE JOURNAL OF COMPUTERS Online Publishing No.1 ——————————————— 本課題得到國家自然科學(xué)基金項目(61472262, 61303108, 61373094, 61502323, 61502329)、蘇州市應(yīng)用基礎(chǔ)研究計劃工業(yè)部分（SYG201422, S

2、YG201308）資助．劉全（通訊作者），男，1969 年生，博士，教授，博士生導(dǎo)師，中國計算機協(xié)會(CCF)高級會員，主要研究方向為強化學(xué)習(xí)、深度強化學(xué)習(xí)和自動推理.E-mail:quanliu@suda.edu.cn. 翟建偉，男， 1992 年生，碩士研究生，主要研究方向為強化學(xué)習(xí)、深度學(xué)習(xí)和深度強化學(xué)習(xí). 章宗長, 男, 1985 年生, 博士, 副教授, 計算機學(xué)會會員, 主要研究領(lǐng)域為部分感知的馬爾可夫決策過程、強

3、化學(xué)習(xí)和多 agent 系統(tǒng). 鐘珊，女，1983 年生，博士研究生，主要研究方向為機器學(xué)習(xí)和深度學(xué)習(xí). 周倩，女，1992 年生，碩士研究生，主要研究方向為強化學(xué)習(xí).章鵬，男，1992 年生，碩士研究生，主要研究方向為連續(xù)空間強化學(xué)習(xí). 徐進，男，1991 年生，碩士研究生，主要研究方向為連續(xù)空間深度強化學(xué)習(xí). 深度強化學(xué)習(xí)綜述劉全+ 翟建偉章宗長鐘珊周倩章鵬徐

4、進 1)(蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院江蘇蘇州 215006) 2)(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心南京 210000) 摘要深度強化學(xué)習(xí)是人工智能領(lǐng)域的一個新的研究熱點．它以一種通用的形式將深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力相結(jié)合，并能夠通過端對端的學(xué)習(xí)方式實現(xiàn)從原始輸入到輸出的直接控制．自提出以來，在許多需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務(wù)中，深度強化學(xué)習(xí)方法已經(jīng)取得了實質(zhì)性的突破．該文首先闡述了 3 類主要

5、的深度強化學(xué)習(xí)方法，包括基于值函數(shù)的深度強化學(xué)習(xí)、基于策略梯度的深度強化學(xué)習(xí)和基于搜索與監(jiān)督的深度強化學(xué)習(xí)；其次對深度強化學(xué)習(xí)領(lǐng)域的一些前沿研究方向進行了綜述，包括分層深度強化學(xué)習(xí)、多任務(wù)遷移深度強化學(xué)習(xí)、多智能體深度強化學(xué)習(xí)、基于記憶與推理的深度強化學(xué)習(xí)等．最后總結(jié)了深度強化學(xué)習(xí)在若干領(lǐng)域的成功應(yīng)用和未來發(fā)展趨勢．關(guān)鍵詞人工智能；深度學(xué)習(xí)；強化學(xué)習(xí)；深度強化學(xué)習(xí) 中圖法分類號 TP18 論文引用格式論文引用格式：

6、劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進,深度強化學(xué)習(xí)綜述,2017，Vol.40,在線出版號 No.1 LIU Quan, ZHAI Jian-Wei, ZHANG Zong-Zhang, ZHONG Shan, ZHOU Qian, ZHANG Peng, XU Jin, A Survey on Deep Reinforcement Learning, 2017,Vol.40,Online Publishing No.1 A

7、Survey on Deep Reinforcement Learning LIU Quan ZHAI Jian-Wei ZHANG Zong-Zhang ZHONG Shan ZHOU Qian ZHANG Peng XU Jin 1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006) 2)(Coll

8、aborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210000) Abstract Deep reinforcement learning (DRL) is a new research hotspot in the artificial intelligence community. By using a g

9、eneral-purpose form, DRL integrates the advantages of the perception of deep learning (DL) and the decision making of reinforcement learning (RL), and gains the output control directly based on raw inputs by the end-to-e

10、nd learning process. DRL has made substantial breakthroughs in a variety of tasks requiring both rich perception of high-dimensional raw inputs and policy control since it was proposed. In this paper, we systematically d

11、escribe three main categories of DRL methods. Firstly, we summarize value-based DRL methods. The core idea behind them is to approximate the value function by using deep neural networks which have strong ability of perce

12、ption. We introduce an epoch-making value-based DRL method called Deep Q-Network (DQN) and its variants. These variants are divided into two categories: improvements of training algorithm and improvements of model archit

13、ecture. The first category includes Deep Double Q-Network (DDQN), DQN based on advantage learning technique, and DDQN with proportional prioritization. The second one includes Deep Recurrent Q-Network (DRQN) and a method

14、 based on Dueling Network architecture. In general, value-based DRL methods are good at dealing with large-scale problems with discrete action spaces. We then summarize policy-based DRL methods. Their powerful idea is to

15、 use deep neural networks to parameterize the policies and 論文在線出版號 No.1 劉全等：深度強化學(xué)習(xí)綜述 3 基于值函數(shù)的DRL基于策略梯度的DRL基于搜索與監(jiān)督的DRLDLRLDRL的起步DRL的成功應(yīng)用DRL的發(fā)展趨勢分層DRL多任務(wù)遷移DRL多智能體DRL基于記憶與推理的DRLDRL中探索與利用的平衡問題1、預(yù)備知識2、主要方法 3、前沿研究4、成功應(yīng)用和發(fā)展趨

16、勢圖 2 本文的整體架構(gòu) 2 預(yù)備知識預(yù)備知識 2.1 深度學(xué)習(xí) DL 的概念源于人工神經(jīng)網(wǎng)絡(luò) （Artificial Neural Network ，ANN ）．含多隱藏層的多層感知器（Multi-Layer Perceptron， MLP）是 DL 模型的一個典型范例．DL 模型通常由多層的非線性運算單元組合而成．其將較低層的輸出作為更高一層的輸入，通過這種方式自動地從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽象的特征表示，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征

17、[28]．與淺層網(wǎng)絡(luò)相比，傳統(tǒng)的多隱藏層網(wǎng)絡(luò)模型有更好的特征表達能力，但由于計算能力不足、訓(xùn)練數(shù)據(jù)缺乏、梯度彌散等原因，使其一直無法取得突破性進展．直到 2006 年，深度神經(jīng)網(wǎng)絡(luò)的研究迎來了轉(zhuǎn)機． Hinton 等人[29]提出了一種訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的基本原則：先用非監(jiān)督學(xué)習(xí)對網(wǎng)絡(luò)逐層進行貪婪的預(yù)訓(xùn)練，再用監(jiān)督學(xué)習(xí)對整個網(wǎng)絡(luò)進行微調(diào)．這種預(yù)訓(xùn)練的方式為深度神經(jīng)網(wǎng)絡(luò)提供了較理想的初始參數(shù)，降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度．此后幾年，各種

18、 DL 模型被相繼提出．包括堆棧式自動編碼器[30-31]（Stacked Auto-Encoder，SAE）、限制玻爾茲曼機 [32-33]（Restricted Boltzmann Machine，RBM）、深度信念網(wǎng)絡(luò)[33-34]（Deep Belief Network，DBN）、循環(huán)神經(jīng)網(wǎng)絡(luò) [35-36]（Recurrent Neural Network，RNN）等．隨著訓(xùn)練數(shù)據(jù)的增長和計算能力的提升，卷積神經(jīng)網(wǎng)絡(luò)（Con

19、volutional Neural Network，CNN）開始在各領(lǐng)域中得到廣泛應(yīng)用．Krizhevsky 等人[2]在2012年提出了一種稱為AlexNet的深度卷積神經(jīng)網(wǎng)絡(luò)，并在當年的 ImageNet 圖像分類競賽中，大幅度降低了圖像識別的 top-5 錯誤率．此后，卷積神經(jīng)網(wǎng)絡(luò)朝著以下 4 個方向迅速發(fā)展：（1）增加網(wǎng)絡(luò)的層數(shù)．在 2014 年，視覺幾何組（Visual Geometry Group，VGG）的 Simony

20、an等人[37]提出了 VGG-Net 模型，進一步降低了圖像識別的錯誤率．He 等人[38]提出了一種擴展深度卷積神經(jīng)網(wǎng)絡(luò)的高效方法；（2）增加卷積模塊的功能． Lin 等人[39]利用多層感知卷積層替代傳統(tǒng)的卷積操作，提出了一種稱為 Network in Network（NIN）的深度卷積網(wǎng)絡(luò)模型．Szegedy 等人[40]在現(xiàn)有網(wǎng)絡(luò)模型中加入一種新穎的 Inception 結(jié)構(gòu)，提出了 NIN 的改進版本GoogleNet，

21、并在 2014 年取得了 ILSVRC 物體檢測的冠軍；（3）增加網(wǎng)絡(luò)層數(shù)和卷積模塊功能．He 等人[41]提出了深度殘差網(wǎng)絡(luò)（Deep Residual Network，DRN），并在 2015 年取得了 ILSVRC 物體檢測和物體識別的雙料冠軍．Szegedy 等人[42]進一步將Inception 結(jié)構(gòu)與 DRN 相結(jié)合，提出了基于 Inception結(jié)構(gòu)的深度殘差網(wǎng)絡(luò)（Inception Residual Network，

22、IRN）．此后，He 等人[43]提出了恒等映射的深度殘差網(wǎng) 絡(luò) （ Identify Mapping Residual Network ，IMRN），進一步提升了物體檢測和物體識別的準確率；（4）增加新的網(wǎng)絡(luò)模塊．向卷積神經(jīng)網(wǎng)絡(luò)中加入循環(huán)神經(jīng)網(wǎng)絡(luò)[44]（Recurrent Neural Network，RNN）、注意力機制[45] （Attention Mechanism， AM）等結(jié)構(gòu)． 2.2 強化學(xué)習(xí) RL 是一種從

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度強化學(xué)習(xí)中文綜述-計算機學(xué)報

文檔簡介

溫馨提示

最新文檔

評論

深度強化學(xué)習(xí)中文綜述-計算機學(xué)報

文檔簡介

溫馨提示

最新文檔

評論

免費下載