エキスパート群から方策推定を行う敵対的逆強化学習
エキスパート群から方策推定を行う敵対的逆強化学習
カテゴリ: 研究会(論文単位)
論文No: ST20049,CT20115
グループ名: 【C】電子・情報・システム部門 システム/【C】電子・情報・システム部門 制御合同研究会
発行日: 2020/12/13
タイトル(英語): Adversarial Inverse Reinforcement Learning to estimate policies from multiple experts
著者名: 山下 廣大(横浜国立大学),濱上 知樹(横浜国立大学)
著者名(英語): Kodai Yamashita(Yokohama National University),Tomoki Hamagami(Yokohama National University)
キーワード: 逆強化学習|模倣学習|敵対的逆強化学習|Inverse Reinforcement Learning|Imitation Learning|AIRL
要約(日本語): 本研究ではInformation Maximizing Generative Adversarial Imitation Learningを逆強化学習手法に拡張する.エキスパートが複数存在する下で環境の変化にロバストな報酬関数を学習し,最適方策が複数存在する環境における方策の獲得を目的とする.提案手法によって学習時とテスト時で環境が変動する場合でも,エキスパートを反映させた未学習の方策の生成を可能にした.
要約(英語): In this study, we extend Information Maximizing Generative Adversarial Imitation Learning as a method of inverse reinforcement learning._x000D_ The purpose is to learn a reward function that is robust to changes in the environment, and to acquire policy in an environment where there are multiple optimal policies.
原稿種別: 日本語
PDFファイルサイズ: 1,297 Kバイト
受取状況を読み込めませんでした
