故障したロボットに対する事前学習データ群を利用した効率的な動作獲得
故障したロボットに対する事前学習データ群を利用した効率的な動作獲得
カテゴリ: 研究会(論文単位)
論文No: ST16005
グループ名: 【C】電子・情報・システム部門 システム研究会
発行日: 2016/03/08
タイトル(英語): Efficient behavior acquisition using a prior learning data group for a failed robot
著者名: 羽鳥 貴久(筑波大学),澁谷 長史(筑波大学)
著者名(英語): Takahisa Hatori(University of Tsukuba),Takeshi Shibuya(University of Tsukuba)
キーワード: 強化学習|故障したロボット|事前学習データ群|Actor-Critic法|方策勾配法|Reinforcement learning|Failed robot|Prior learning data group|Actor-Critic method|Policy gradient method
要約(日本語): ロボットが故障に対処する動作を自律的に獲得し,性能を回復させることが重要である。強化学習法の一つである方策勾配法によりロボットは自律的に動作を獲得できる。しかし,方策パラメータの初期値によっては局所解に陥り学習効率が悪い。本研究では,故障発生時にロボットが効率的に動作を獲得するための方策パラメータの初期値を事前学習データ群を利用して設定する手法を提案する。
要約(英語): It is important that a robot autonomously acquires behavior for failure. The robot can do that using policy gradient method. However, depending on initial value of policy parameter, learning result approaches a local solution. This paper proposes setting method of initial value of policy parameter which enables the robot to acquire behavior efficiently.
原稿種別: 日本語
PDFファイルサイズ: 748 Kバイト
受取状況を読み込めませんでした
