分布Bellman方程式における動的計画法の収束性解析

¥440 JPY

セール売り切れ

税込

カテゴリ: 部門大会

論文No: TC4-13

グループ名: 【C】平成22年電気学会電子・情報・システム部門大会講演論文集

発行日: 2010/09/02

タイトル(英語): Convergence Analysis of Dynamic Programming for Distributional Bellman Equation

著者名: 森村哲郎(日本アイ・ビー・エム),杉山将(東京工業大学),鹿島久嗣(東京大学),八谷大岳 (東京工業大学),田中利幸(京都大学)

著者名(英語): Tetsuro Morimura(IBM Japan,Ltd.),Masashi Sugiyama(Tokyo Institute of Technology),Hisashi Kashima(The University of Tokyo),Hirotaka Hachiya(Tokyo Institute of Technology),Toshiyuki Tanaka(Kyoto University,)

要約(日本語): 近年、分布Bellman方程式に基づくリターン（積算報酬）分布近似手法が提案され、リスク考慮型強化学習法としての有用性も示された。しかしながら、その収束性に関する解析は十分でない。そこで本報告では、動的計画法により分布Bellman方程式を解いた場合の収束性解析結果を記す。動的計画法により、リターンの初期近似分布に依存せず真のリターン分布に収束することや、真の分布のモーメントに収束する速度について報告する。

PDFファイルサイズ: 4,417 Kバイト

販売タイプ PDFダウンロード（一般価格440円/会員価格220円）

書籍サイズ A4

ページ数 6

数量

詳細を表示する

国/地域

分布Bellman方程式における動的計画法の収束性解析

分布Bellman方程式における動的計画法の収束性解析