2つのエピソードを持つ経験強化型深層強化学習手法の提案
2つのエピソードを持つ経験強化型深層強化学習手法の提案
カテゴリ: 部門大会
論文No: TC16-5
グループ名: 【C】平成30年電気学会電子・情報・システム部門大会プログラム
発行日: 2018/09/05
タイトル(英語): Proposal of Exploitation-oriented Deep Reinforcement Learning Method with Two Episodes
著者名: 小玉 直樹(東京理科大学),原田 拓(東京理科大学),宮崎 和光(大学改革支援・学位授与機構)
著者名(英語): Naoki Kodama|Taku Harada|Kazueru Miyazaki
キーワード: 経験強化型学習|強化学習|深層学習|利益分配法|Q学習深層Qネットワーク|Exploitation-oriented Learning|Reinforcement Learning|Deep Learning|Profit Sharing|Q-learningDeep Q-Network
要約(日本語): 近年,Deep Learningが注目を浴びている。Deep Q-Network (DQN)はDeep LearningとQ-learningを組み合わせた手法で,Atari2600のゲームで優れた結果を得ている。さらに,DQNと経験強化型学習のProfit Sharingを組み合わせた手法としてDQNwithPSやその改良型のLearning Acceleration DQN (LADQN)が提案されており,DQNに比べて試行錯誤回数の低減が実現されている。しかし,LADQNはタスクによって経験強化の影響に大きな差がある。例えば,報酬獲得頻度が高く,エピソード長が極端に短い場合には,経験強化の性能を活かしきれない。一方,報酬獲得頻度が低い場合には,経験強化プロセスはほとんど行われない。そこで本論文では,報酬獲得頻度に影響しない経験強化を実現するために,LADQNの報酬分配アルゴリズムを改良し,経験強化のためのエピソードを追加した手法を提案する。この提案手法はCart-Pole問題に適用し,その有効性を検証する。
PDFファイルサイズ: 526 Kバイト
受取状況を読み込めませんでした
