予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証
予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証
カテゴリ: 部門大会
論文No: TC5-7
グループ名: 【C】平成29年電気学会電子・情報・システム部門大会講演論文集
発行日: 2017/09/06
タイトル(英語): Proposal of new penalty utilization method incorporating Expected Failure Probability and verification of its effectiveness in multi-agent environment
著者名: 小玉 直樹(明治大学),宮崎 和光(大学改革支援・学位授与機構),小林 博明(明治大学)
著者名(英語): Naoki Kodama|Kazuteru Miyazaki|Hiroaki Kobayashi
キーワード: 強化学習|経験強化型学習|報酬割当て法|マルチエージェント学習|機械学習|Reinforcement Learning|Exploitation-oriented Learning|Profit Sharing|Multi-agent Learning|Machine Learning
要約(日本語): Profit Sharing(PS)は強化学習の一種である。最近、予想失敗確率(EFP)を用いて罰ルールを除外し、合理的政策を学習するPS手法が提案された。また、PSwithEFPではEFPを行動選択法に組み合わせ、罰を効率的に回避することができる。 PSwithEFPは、学習が進むにつれEFPの影響が小さくなる。これによってマルチエージェント環境における同時学習問題が解決されているが、報酬の与えられ方によってはEFPによる罰回避政策を学習する前に学習収束してしまう場合がある。そこで、この解決のためにEFPとそれによって変化する罰用いた手法を提案する。同時学習問題は罰を与える対象を1体にすることで解決しつつ、罰によってEFPが高いルールほど収益が小さくなり罰回避政策を学習できる。 検証のためにKeepawayタスクによるマルチエージェント環境で従来の手法と比較を行った。結果として、本提案手法の罰回避政策学習によって一番良い学習結果を得た。
PDFファイルサイズ: 660 Kバイト
受取状況を読み込めませんでした
