商品情報にスキップ
1 2

ガウス過程を用いた対話型多目的強化学習手法の改良

ガウス過程を用いた対話型多目的強化学習手法の改良

通常価格 ¥660 JPY
通常価格 セール価格 ¥660 JPY
セール 売り切れ
税込

カテゴリ: 研究会(論文単位)

論文No: ST21038,CT21074

グループ名: 【C】電子・情報・システム部門 システム/【C】電子・情報・システム部門 制御合同研究会

発行日: 2021/12/01

タイトル(英語): Improvement of interactive multi-objective reinforcement learning using Gaussian processes

著者名: 保木本 祐介(広島大学),林田 智弘(広島大学),西崎 一郎(広島大学),関崎 真也(広島大学)

著者名(英語): Yusuke Hokimoto(Hiroshima University),Tomohiro Hayashida(Hiroshima University),ichiro Nishizaki(Hiroshima University),shinya Sekizaki(Hiroshima University)

キーワード: 強化学習|多目的最適化|ガウス過程|ベイズ最適化|reinforcement learning|multi-objective optimization|Gaussian processes|bayesian optimization

要約(日本語): 一般に,多目的最適化問題ではパレート解集合を同定し,その中から意思決定者の選好を反映した唯一の解が合理的に選択されるべきである.本研究ではマルチステップの多目的最適化問題のための,ガウス過程を利用した強化学習手法であるGP-SARSAを多目的に拡張し,多目的ベイズ最適化を用いた効率的な行動方策によりパレート解集合の探索を行う.さらに,意思決定者の選好を反映した解を対話型手法によって発見する手法を開発する.

要約(英語): In multi-objective optimization(MOO) problems, it is necessary to discover the Pareto solution set and choose a single solution which matches the preferences of the decision maker. This study proposes an interactive multi-objective reinforcement learning using Gaussian processes for the efficient discovery of Pareto solution sets. In our proposed method, multi-objective Bayesian optimization which determines the next action based on the uncertainty of the prediction by variance of the evaluations that measured by Gaussian processes is used as the action policy. A solution which matches the preference of the decision maker is chosen through interactive decision method. It is possible to conduct effective learning by selecting actions with high variance.

本誌: 2021年12月4日システム/制御合同研究会

本誌掲載ページ: 1-5 p

原稿種別: 日本語

PDFファイルサイズ: 957 Kバイト

販売タイプ
書籍サイズ
ページ数
詳細を表示する