TD誤差に基づく強化学習のメタパラメータ学習法
TD誤差に基づく強化学習のメタパラメータ学習法
カテゴリ: 部門大会
論文No: GS10-6
グループ名: 【C】平成20年電気学会電子・情報・システム部門大会講演論文集
発行日: 2008/08/20
タイトル(英語): A Meta-parameter Learning Method in Reinforcement Learning Based on Temporal Difference Error
著者名: 溝上 裕之(山口大学),小林 邦和(山口大学),呉本 尭(山口大学),大林 正直(山口大学)
著者名(英語): Hiroyuki Mizoue(Yamaguchi University Graduate School),Kunikazu Kobayashi(Yamaguchi University Graduate School),Takashi Kuremoto(Yamaguchi University Graduate School),Masanao Obayashi(Yamaguchi University Graduate School)
キーワード: 強化学習|メタパラメータ|メタ学習|TD誤差|迷路探索問題|reinforcement learning|meta-parameter|meta-learning|TD-error|maze problem
要約(日本語): 通常,強化学習では,学習率などのメタパラメータは経験的に設定され,学習終了まで固定されている.そのため,外部環境が変化した場合に,それに適応することが困難となる.一方,生体の脳では強化学習を行っていることが示唆され,メタパラメータに相当する神経修飾物質を調整することで,外部環境の変化に適応するという仮説が提唱されている.本研究では,この仮説に基づき,TD誤差を用いてメタパラメータを調整する学習法を提案する.計算機シミュレーションにおいて,提案法を迷路探索問題へ適用し,TD誤差の大きさに応じて適切にメタパラメータが調整されることを示す.
PDFファイルサイズ: 3,797 Kバイト
受取状況を読み込めませんでした
