商品情報にスキップ
1 1

2つのエピソードを持つ経験強化型深層強化学習手法の提案

2つのエピソードを持つ経験強化型深層強化学習手法の提案

通常価格 ¥440 JPY
通常価格 セール価格 ¥440 JPY
セール 売り切れ
税込

カテゴリ: 部門大会

論文No: TC16-5

グループ名: 【C】平成30年電気学会電子・情報・システム部門大会プログラム

発行日: 2018/09/05

タイトル(英語): Proposal of Exploitation-oriented Deep Reinforcement Learning Method with Two Episodes

著者名: 小玉 直樹(東京理科大学),原田 拓(東京理科大学),宮崎 和光(大学改革支援・学位授与機構)

著者名(英語): Naoki Kodama|Taku Harada|Kazueru Miyazaki

キーワード: 経験強化型学習|強化学習|深層学習|利益分配法|Q学習深層Qネットワーク|Exploitation-oriented Learning|Reinforcement Learning|Deep Learning|Profit Sharing|Q-learningDeep Q-Network

要約(日本語): 近年,Deep Learningが注目を浴びている。Deep Q-Network (DQN)はDeep LearningとQ-learningを組み合わせた手法で,Atari2600のゲームで優れた結果を得ている。さらに,DQNと経験強化型学習のProfit Sharingを組み合わせた手法としてDQNwithPSやその改良型のLearning Acceleration DQN (LADQN)が提案されており,DQNに比べて試行錯誤回数の低減が実現されている。しかし,LADQNはタスクによって経験強化の影響に大きな差がある。例えば,報酬獲得頻度が高く,エピソード長が極端に短い場合には,経験強化の性能を活かしきれない。一方,報酬獲得頻度が低い場合には,経験強化プロセスはほとんど行われない。そこで本論文では,報酬獲得頻度に影響しない経験強化を実現するために,LADQNの報酬分配アルゴリズムを改良し,経験強化のためのエピソードを追加した手法を提案する。この提案手法はCart-Pole問題に適用し,その有効性を検証する。

PDFファイルサイズ: 526 Kバイト

販売タイプ
書籍サイズ
ページ数
詳細を表示する