予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証

¥440 JPY

セール売り切れ

税込

カテゴリ: 部門大会

論文No: TC5-7

グループ名: 【C】平成29年電気学会電子・情報・システム部門大会講演論文集

発行日: 2017/09/06

タイトル(英語): Proposal of new penalty utilization method incorporating Expected Failure Probability and verification of its effectiveness in multi-agent environment

著者名: 小玉直樹(明治大学),宮崎和光(大学改革支援・学位授与機構),小林博明(明治大学)

著者名(英語): Naoki Kodama|Kazuteru Miyazaki|Hiroaki Kobayashi

要約(日本語): Profit Sharing(PS)は強化学習の一種である。最近、予想失敗確率(EFP)を用いて罰ルールを除外し、合理的政策を学習するPS手法が提案された。また、PSwithEFPではEFPを行動選択法に組み合わせ、罰を効率的に回避することができる。　PSwithEFPは、学習が進むにつれEFPの影響が小さくなる。これによってマルチエージェント環境における同時学習問題が解決されているが、報酬の与えられ方によってはEFPによる罰回避政策を学習する前に学習収束してしまう場合がある。そこで、この解決のためにEFPとそれによって変化する罰用いた手法を提案する。同時学習問題は罰を与える対象を1体にすることで解決しつつ、罰によってEFPが高いルールほど収益が小さくなり罰回避政策を学習できる。　検証のためにKeepawayタスクによるマルチエージェント環境で従来の手法と比較を行った。結果として、本提案手法の罰回避政策学習によって一番良い学習結果を得た。

PDFファイルサイズ: 660 Kバイト

販売タイプ PDFダウンロード（一般価格440円/会員価格220円）

書籍サイズ A4

ページ数 6

数量

詳細を表示する

国/地域

予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証

予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証