自律的な状態空間の構成によるProfit Sharing強化学習の高速化
自律的な状態空間の構成によるProfit Sharing強化学習の高速化
カテゴリ: 部門大会
論文No: OS7-6
グループ名: 【C】平成19年電気学会電子・情報・システム部門大会講演論文集
発行日: 2007/09/04
タイトル(英語): Speeding up Profit Sharing reinforcement learning by autonomous construction of state space
著者名: 中野 秀洋(武蔵工業大学),田嶋 真也(武蔵工業大学),宮内 新(武蔵工業大学)
著者名(英語): Hidehiro Nakano(Musashi Institute of Technology),Shin'ya Tajima(Musashi Institute of Technology),Arata Miyauchi(Musashi Institute of Technology)
キーワード: 強化学習|profit sharing|強化関数|合理性定理|reinforcement learning|profit sharing|reinforcement function|rationality theorem
要約(日本語): 強化学習を実問題に適用しようとする際,状態数の増加に伴う学習の遅さが問題となる.問題とするタスクに対して,粗いグリッド空間により状態空間を構成すると,学習は速くなるものの得られる解の質は低下する.一方,細かいグリッド空間により状態空間を構成すると,解の質は向上するものの学習は遅くなる.こうした問題に対して,状態空間を自律的に構成する手法が有効であり,様々な手法が提案されている.本研究では,学習エージェントの行動系列に基づく状態空間の自律的構成法と,それに適したProfit Sharing強化学習法の強化関数について考察する.いくつかの例題のタスクに対して数値実験を行い,提案手法の有効性を確認する.
PDFファイルサイズ: 2,811 Kバイト
受取状況を読み込めませんでした
