商品情報にスキップ
1 1

Evolution Strategyを用いた深層強化学習における上位個体に基づいたパラメータ最適化手法

Evolution Strategyを用いた深層強化学習における上位個体に基づいたパラメータ最適化手法

通常価格 ¥440 JPY
通常価格 セール価格 ¥440 JPY
セール 売り切れ
税込

カテゴリ: 部門大会

論文No: GS6-3

グループ名: 【C】2019年電気学会電子・情報・システム部門大会プログラム

発行日: 2019/08/28

タイトル(英語): A Parameter Optimization Method Based on Higher-Ranked Individuals for Deep Reinforcement Learning Using Evolution Strategy

著者名: 土田 喬皓(千葉工業大学),山口 智(千葉工業大学)

著者名(英語): Takahiro Tsuchida|Satoshi Yamaguchi

キーワード: 進化戦略|強化学習|Evolution Strategy|Reinforcement Learning

要約(日本語): ニューラルネットワークを用いた強化学習のうち,Evolution Strategy(ES)を用いてパラメータを最適化する手法が提案されている。この手法は,あるパラメータを中心とする分布内に個体を生成し,個体が得た報酬に基づき重みを付けている。しかしながら,同程度の報酬を得た個体同士では重みの差が小さく,分布内の離れた位置に同程度の報酬を得た個体が存在する場合,パラメータの更新が停滞する。そこで本研究では,通常のパラメータの更新を行なった後,高い報酬を得た個体を複数選択し,それらの個体を用いて再度パラメータを更新する手法を提案する。高い報酬を得た個体を重視することで,従来の手法に比べ早期にパラメータを探索する事が期待される。実験では,OpenAI Gymにおける二次元の二足歩行ロボットの学習環境であるBipedalWalkerに対して従来手法と提案手法を適用し,評価を行う。

PDFファイルサイズ: 280 Kバイト

販売タイプ
書籍サイズ
ページ数
詳細を表示する