部分観測マルコフ決定問題に対する群強化学習法-Swarm HQ-Learning-
部分観測マルコフ決定問題に対する群強化学習法-Swarm HQ-Learning-
カテゴリ: 研究会(論文単位)
論文No: ST18050
グループ名: 【C】電子・情報・システム部門 システム研究会
発行日: 2018/09/26
タイトル(英語): Swarm Reinforcement Learning Method for Partially Observable Markov Decision Process-Swarm HQ-Learning-
著者名: 竹内 健也(関西大学),黒江 康明(関西大学),前田 裕(関西大学)
著者名(英語): Kenya Takeuchi(Kansai university),Yasuaki Kuroe(Kansai university),Yutaka Maeda(Kansai university)
キーワード: 強化学習|部分観測マルコフ決定過程|HQ学習|群強化学習|Reinforcement learning|POMDP|HQ-Learning|Swarm reinforcement learning
要約(日本語): 強化学習において対象の問題はマルコフ性があり全状態を完全に知覚できると仮定することが多い。ところが、現実の問題では環境を完全に観測できるとは限らない。そのような場合、異なる状態を同一の状態として認識し学習が困難となる。本研究では、このような不完全知覚問題における学習を高速化及びより良い解の導出を目的に群強化学習法を用いてHQ-Learningを拡張した手法を提案する。また、HQ-Learningとの比較実験を通して提案法の有効性を示す。
要約(英語): For reinforcement learning we usually assume Markov decision process(MDP). However, in general the agent cannot fully observe the environment. In this case, a same observation may occur in more than one state of the environment, and different action responses may be required. Such a problem is called partially observable Markov decision problems(POMDP).To solve the POMDP, HQ-Learning has been proposed. In this paper, we propose a reinforcement learning using HQ-Learning.
原稿種別: 日本語
PDFファイルサイズ: 1,796 Kバイト
受取状況を読み込めませんでした
