商品情報にスキップ
1 1

分布Bellman方程式における動的計画法の収束性解析

分布Bellman方程式における動的計画法の収束性解析

通常価格 ¥440 JPY
通常価格 セール価格 ¥440 JPY
セール 売り切れ
税込

カテゴリ: 部門大会

論文No: TC4-13

グループ名: 【C】平成22年電気学会電子・情報・システム部門大会講演論文集

発行日: 2010/09/02

タイトル(英語): Convergence Analysis of Dynamic Programming for Distributional Bellman Equation

著者名: 森村 哲郎(日本アイ・ビー・エム),杉山 将(東京工業大学),鹿島 久嗣(東京大学),八谷大岳 (東京工業大学),田中 利幸(京都大学)

著者名(英語): Tetsuro Morimura(IBM Japan,Ltd.),Masashi Sugiyama(Tokyo Institute of Technology),Hisashi Kashima(The University of Tokyo),Hirotaka Hachiya(Tokyo Institute of Technology),Toshiyuki Tanaka(Kyoto University,)

キーワード: 強化学習|分布Bellman方程式|動的計画法|リターン分布推定|Reinforcement Learning|Distributional Bellman Equation|Dynamic Programming|Return Density Estimation

要約(日本語): 近年、分布Bellman方程式に基づくリターン(積算報酬)分布近似手法が提案され、リスク考慮型強化学習法としての有用性も示された。しかしながら、その収束性に関する解析は十分でない。そこで本報告では、動的計画法により分布Bellman方程式を解いた場合の収束性解析結果を記す。動的計画法により、リターンの初期近似分布に依存せず真のリターン分布に収束することや、真の分布のモーメントに収束する速度について報告する。

PDFファイルサイズ: 4,417 Kバイト

販売タイプ
書籍サイズ
ページ数
詳細を表示する