POMDPsでの強化学習における状態フィルタ:離散状態空間と連続状態空間への適用
POMDPsでの強化学習における状態フィルタ:離散状態空間と連続状態空間への適用
カテゴリ: 部門大会
論文No: OS6-8
グループ名: 【C】平成18年電気学会電子・情報・システム部門大会講演論文集
発行日: 2006/09/05
タイトル(英語): A State Space Filter for Reinforcement Learning in POMDPs- Application to Discrete State Space and Continuous State Space -
著者名: 永吉 雅人(神戸大学,兵庫県立福祉のまちづくり工学研究所),村尾 元(神戸大学),玉置 久(神戸大学)
著者名(英語): Masato Nagayoshi(Kobe University),Hajime Murao(Kobe University),Hisashi Tamaki(Kobe University)
キーワード: 強化学習|状態空間構成|部分観測マルコフ決定過程|状態フィルタ|エントロピーシミュレーション|reinforcement learning|state space design|POMDPs|state space filter|entropysimulation
要約(日本語): 強化学習をエージェントの制御規則の適応的調節・獲得などに応用しようとする試みが
盛んであるが,強化学習の実用化のためには未だ多くの課題が残されている.本
稿では,強化学習の実用化のために,部分観測系への対応に注目する.
そして,この点に留意し,筆者らが提案して
いる状態フィルタを定義・導入した計算モデルを部分観測系を含む形に拡張
する.次に,適応的に履歴情報を記録・参照することで,状態空間のコンパクト化を可能とする状態フィルタの一実現法を提案する.
さらに,対象システムが離散状態空間での迷路問題と連続状態空間でのロボット
ナビゲーション問題を取り上げ,計算機実験を通して,提案手法の有効性・可能性について検討する.
PDFファイルサイズ: 672 Kバイト
受取状況を読み込めませんでした
