複数報酬環境下における状態分割型経験強化学習法
複数報酬環境下における状態分割型経験強化学習法
カテゴリ: 部門大会
論文No: OS6-5
グループ名: 【C】平成14年電気学会電子・情報・システム部門大会講演論文集
発行日: 2002/09/02
タイトル(英語): A Reinforcement Learning Based on State Partitioning Profit Sharing Approach under Multi-Rewards Environment
著者名: 斎藤 健(東京都立科学技術大学),増田 士朗(東京都立科学技術大学)
著者名(英語): Ken Saitoh(Tokyo Metropolitan Institute of Technology),Shiro Masuda(Tokyo Metropolitan Institute of Technology)
キーワード: 強化学習|Profit Sharing部分観測マルコフ決定過程|部分観測マルコフ決定過程|reinforcement learing|Profit Sharing |rewards|POMDPs
要約(日本語): 強化学習法は,未知環境に置かれた学習主体(エージェント)が外部から与えられる報酬を手がかりに自律的に学習を行いながら最適な行動政策を獲得する手法である.
このとき強化学習は大きくわけて,未知環境を同定したのち最適な行動を学習する環境同定型の強化学習と報酬獲得を主体に学習を進める経験強化型の強化学習とに分類されるが,複雑な実環境においては,
未知環境を全て同定することが困難であるため,
経験強化型の強化学習のほうがより有効と考えられる.
しかし,経験強化型の強化学習では,
最初に発見した報酬を獲得する行動を強化していくため,
報酬が複数存在するような環境に対応しにくいと考えられる.
また,エージェントの感覚入力の不完全性から環境認識を誤る場合をモデル化した部分観測マルコフ決定過程(Partially Observable Markov Decision Process; POMDP) では,最適な学習が困難となる.
そこで,本研究では,従来提案されている経験強化型の強化学習法のなかで,Profit Sharing 法,報酬リレー法,
RPM(Rational Policy Making)法に注目し,
Profit Sharing 法と報酬リレー法を組み合わせた新しい経験強化型の強化学習法を新しく提案し,
複数報酬に対する学習効率についての改善を試みる.
また,POMDPs 環境に対応するため,
状態分割型経験強化学習法を提案し,
その手法の複数報酬環境への対応能力を検討する.
PDFファイルサイズ: 4,420 Kバイト
受取状況を読み込めませんでした
