確率的傾斜法による接近に行動系列の保存を組み合わせた強化学習法
確率的傾斜法による接近に行動系列の保存を組み合わせた強化学習法
カテゴリ: 部門大会
論文No: GS15-3
グループ名: 【C】平成19年電気学会電子・情報・システム部門大会講演論文集
発行日: 2007/09/04
タイトル(英語): A reinforcement learning using a stochastic gradient method with action sequence memory
著者名: 山田 孝文(千葉工業大学),山口 智(千葉工業大学)
著者名(英語): Takafumi Yamada(Chiba Institute of Technorogy),Satoshi Yamaguchi(Chiba Institute of Technorogy)
キーワード: 強化学習|部分観測マルコフ決定過程|メモリベース学習|確率的傾斜法|reinforcement learning|partially observable Markov decision processes|memory-based learning|stochastic gradient method
要約(日本語): 部分観測マルコフ決定過程下での強化学習法においてメモリレスに学習が行われる手法の一つに確率的傾斜法により最適政策へ接近する手法が存在する。これはメモリを使わずに学習できる有用な方法であるが、環境によっては政策が定まらないという欠点がある。
そこで本論文では、この確率的傾斜法による学習が収束した場合、政策が定まらなくともエージェントが観測する可能性のある状態が限定される点に着目し、収束後に行動系列を保存して学習に利用するメモリベース的手法に切り替え、政策が定まらない場合を回避する手法を提案する。この手法は、学習の収束により観測する状態が限定されているため従来のメモリベース法と異なり、過去の経験を保存するのに必要なメモリが少なくてすみ、有用な方法であると考えられる。
PDFファイルサイズ: 1,857 Kバイト
受取状況を読み込めませんでした
