初期状態が変化する環境における複素強化学習の検討
初期状態が変化する環境における複素強化学習の検討
カテゴリ: 研究会(論文単位)
論文No: ST11016
グループ名: 【C】電子・情報・システム部門 システム研究会
発行日: 2011/08/25
タイトル(英語): A Study of Complex-valued Reinforcement Learning in Dynamic Environments
著者名: 山崎 惇広(横浜国立大学),濱上 知樹(横浜国立大学)
著者名(英語): Yamazaki Atsuhiro(Yokohama National University),Hamagami Tomoki(Yokohama National University)
キーワード: 強化学習|不完全知覚|複素強化学習|reinforcement learning|perceptual aliasing|complex-valued reinforcement learning
要約(日本語): 状態行動列の文脈を学習に含むことで,部分観測マルコフ決定過程環境での学習を行う複素強化学習が提案されている。しかし,初期状態の変化により再学習が必要となる際には,学習文脈の影響によって適切な学習が困難になりうる。本稿では,確率的に内部参照値の発現位置を決定することで,初期状態が変化する環境における複素強化学習について検討する。グリッドワールド環境を用いた実験により,提案手法の有効性を確認した。
要約(英語): In complex-valued reinforcement learning, an agent learns a context of sequence of states and actions to adapt to partially observable markov decision processes.However, when the initial state changes, the agent won't relearn appropriately because of the learned context.In this paper, complex-valued reinforcement learning whose internal value is updated stochastically is proposed to adapt to dynamic environments.Experimental results show the effectiveness.
原稿種別: 日本語
PDFファイルサイズ: 615 Kバイト
受取状況を読み込めませんでした
