Evolution Strategyを用いた深層強化学習における上位個体に基づいたパラメータ最適化手法
Evolution Strategyを用いた深層強化学習における上位個体に基づいたパラメータ最適化手法
カテゴリ: 部門大会
論文No: GS6-3
グループ名: 【C】2019年電気学会電子・情報・システム部門大会プログラム
発行日: 2019/08/28
タイトル(英語): A Parameter Optimization Method Based on Higher-Ranked Individuals for Deep Reinforcement Learning Using Evolution Strategy
著者名: 土田 喬皓(千葉工業大学),山口 智(千葉工業大学)
著者名(英語): Takahiro Tsuchida|Satoshi Yamaguchi
キーワード: 進化戦略|強化学習|Evolution Strategy|Reinforcement Learning
要約(日本語): ニューラルネットワークを用いた強化学習のうち,Evolution Strategy(ES)を用いてパラメータを最適化する手法が提案されている。この手法は,あるパラメータを中心とする分布内に個体を生成し,個体が得た報酬に基づき重みを付けている。しかしながら,同程度の報酬を得た個体同士では重みの差が小さく,分布内の離れた位置に同程度の報酬を得た個体が存在する場合,パラメータの更新が停滞する。そこで本研究では,通常のパラメータの更新を行なった後,高い報酬を得た個体を複数選択し,それらの個体を用いて再度パラメータを更新する手法を提案する。高い報酬を得た個体を重視することで,従来の手法に比べ早期にパラメータを探索する事が期待される。実験では,OpenAI Gymにおける二次元の二足歩行ロボットの学習環境であるBipedalWalkerに対して従来手法と提案手法を適用し,評価を行う。
PDFファイルサイズ: 280 Kバイト
受取状況を読み込めませんでした
