複数種類の報酬と罰に対応した経験強化型学習の提案と設計指針に関する研究
複数種類の報酬と罰に対応した経験強化型学習の提案と設計指針に関する研究
カテゴリ: 部門大会
論文No: TC15-2
グループ名: 【C】平成24年電気学会電子・情報・システム部門大会講演論文集
発行日: 2012/09/05
タイトル(英語): Proposal of an Exploitation-oriented Learning Method on Multiple Rewards and Penalties Environments and Research on the Design Guideline
著者名: 宮崎 和光(大学評価・学位授与機構)
著者名(英語): Kazuteru Miyazaki(National Institution for Academic Degrees and University Evaluation)
キーワード: 強化学習|経験強化型学習|報酬と罰|設計指針|Reinforcement Learning|Exploitation-oriented Learning XoL|Rewards and Penalties|Design Guideline
要約(日本語): 「試行錯誤に基づく目的指向学習」は、現在「強化学習」において集中的に研究されている。強化学習は、未知環境に対する学習手法として斬新かつ興味深いものであるが、キラーアプリケーションと呼べるような応用例が少ないのも事実である。これには主として、学習に時間がかかりすぎる点、および、適切な学習を実現するための報酬の設計指針が明らかでない点が影響していると考えられる。これに対し著者らは、得られた経験を強く強化することで試行錯誤回数の軽減を目指す接近である「経験強化型学習;Exploitation-oriented Learning (XoL)」に関する研究を続けている。本論文では、これまで未完成であった「複数種類の報酬と罰に対応したXoL手法」の提案を行うとともに、与えられた問題を報酬と罰により定式化する方法を述べることで「XoLにおける報酬と罰の設計指針」を明らかにする。
PDFファイルサイズ: 6,328 Kバイト
受取状況を読み込めませんでした
