商品情報にスキップ
1 1

方策こう配法を用いた行動学習:環境のダイナミクスと行動価値に基づく行動知識とを分離した方策の表現

方策こう配法を用いた行動学習:環境のダイナミクスと行動価値に基づく行動知識とを分離した方策の表現

通常価格 ¥440 JPY
通常価格 セール価格 ¥440 JPY
セール 売り切れ
税込

カテゴリ: 部門大会

論文No: GS10-3

グループ名: 【C】平成20年電気学会電子・情報・システム部門大会講演論文集

発行日: 2008/08/20

タイトル(英語): Behavior Learning Based on a Policy Gradient Method: Separation of Environmental Dynamics and the Knowledge about Action-values in Policies

著者名: 石原 聖司(近畿大学),五十嵐 治一(芝浦工業大学)

著者名(英語): Seiji Ishihara(Kinki University),Harukazu Igarashi(Shibaura Institute of Technology)

キーワード: 方策こう配法|強化学習|policy gradient method|reinforcement learning

要約(日本語): 強化学習によりエージェントの行動決定方法(方策)を学習する際には,通常,環境の状態遷移確率に関する情報を事前に入手したり,別途学習したりする必要はない.例えばQ 学習では,このような情報は,行動価値関数Q(s, a)の値として,問題解決のための行動決定に関する知識と一体となって学習されていく. しかし,環境に依存しないで有効な行動決定をもたらす普遍的な知識(以下,行動知識)は多くの問題で存在する.例えば,追跡問題において,ハンターが獲物に接近する行動を選択した方が捕獲に貢献し高報酬につながるといった知識はハンターの動作特性に無関係である.ところが,ハンターの走行特性にくせがある場合や,必ずしも思い通りの方向にハンターが進めず確率的にしか状態を遷移できない場合,学習により得られた方策はこの動作特性(=状態遷移確率)の影響を強く受けてしまう. もし,方策に関する知識が動作特性に依存するものと依存しないものとに分離された形で学習できれば,後者の知識を別の環境下でも容易に再利用できるという利点がある.また,動作特性だけを別の方法で測定しておいて,それを方策の学習時に利用できれば学習の効率化につながるであろう.本稿ではこのようなアイデアを実現するための強化学習方式について提案を行うとともに,追跡問題への適用実験を通じて,提案方式による行動学習が可能であることを示す.

PDFファイルサイズ: 4,127 Kバイト

販売タイプ
書籍サイズ
ページ数
詳細を表示する