商品情報にスキップ
1 1

予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証

予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証

通常価格 ¥440 JPY
通常価格 セール価格 ¥440 JPY
セール 売り切れ
税込

カテゴリ: 部門大会

論文No: TC5-7

グループ名: 【C】平成29年電気学会電子・情報・システム部門大会講演論文集

発行日: 2017/09/06

タイトル(英語): Proposal of new penalty utilization method incorporating Expected Failure Probability and verification of its effectiveness in multi-agent environment

著者名: 小玉 直樹(明治大学),宮崎 和光(大学改革支援・学位授与機構),小林 博明(明治大学)

著者名(英語): Naoki Kodama|Kazuteru Miyazaki|Hiroaki Kobayashi

キーワード: 強化学習|経験強化型学習|報酬割当て法|マルチエージェント学習|機械学習|Reinforcement Learning|Exploitation-oriented Learning|Profit Sharing|Multi-agent Learning|Machine Learning

要約(日本語): Profit Sharing(PS)は強化学習の一種である。最近、予想失敗確率(EFP)を用いて罰ルールを除外し、合理的政策を学習するPS手法が提案された。また、PSwithEFPではEFPを行動選択法に組み合わせ、罰を効率的に回避することができる。 PSwithEFPは、学習が進むにつれEFPの影響が小さくなる。これによってマルチエージェント環境における同時学習問題が解決されているが、報酬の与えられ方によってはEFPによる罰回避政策を学習する前に学習収束してしまう場合がある。そこで、この解決のためにEFPとそれによって変化する罰用いた手法を提案する。同時学習問題は罰を与える対象を1体にすることで解決しつつ、罰によってEFPが高いルールほど収益が小さくなり罰回避政策を学習できる。 検証のためにKeepawayタスクによるマルチエージェント環境で従来の手法と比較を行った。結果として、本提案手法の罰回避政策学習によって一番良い学習結果を得た。

PDFファイルサイズ: 660 Kバイト

販売タイプ
書籍サイズ
ページ数
詳細を表示する