{"product_id":"ieej-ct10tc04013","title":"分布Bellman方程式における動的計画法の収束性解析","description":"\u003cp\u003e\u003cstrong\u003eカテゴリ: \u003c\/strong\u003e部門大会\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e論文No: \u003c\/strong\u003eTC4-13\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eグループ名: \u003c\/strong\u003e【C】平成22年電気学会電子・情報・システム部門大会講演論文集\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e発行日: \u003c\/strong\u003e2010\/09\/02\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eタイトル(英語): \u003c\/strong\u003eConvergence Analysis of Dynamic Programming for Distributional Bellman Equation\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名: \u003c\/strong\u003e森村 哲郎(日本アイ・ビー・エム),杉山 将(東京工業大学),鹿島 久嗣(東京大学),八谷大岳 (東京工業大学),田中 利幸(京都大学)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名(英語): \u003c\/strong\u003eTetsuro Morimura(IBM Japan,Ltd.),Masashi Sugiyama(Tokyo Institute of Technology),Hisashi Kashima(The University of Tokyo),Hirotaka Hachiya(Tokyo Institute of Technology),Toshiyuki Tanaka(Kyoto University,)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eキーワード: \u003c\/strong\u003e強化学習|分布Bellman方程式|動的計画法|リターン分布推定|Reinforcement Learning|Distributional Bellman Equation|Dynamic Programming|Return Density Estimation\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e要約(日本語): \u003c\/strong\u003e近年、分布Bellman方程式に基づくリターン（積算報酬）分布近似手法が提案され、リスク考慮型強化学習法としての有用性も示された。しかしながら、その収束性に関する解析は十分でない。そこで本報告では、動的計画法により分布Bellman方程式を解いた場合の収束性解析結果を記す。動的計画法により、リターンの初期近似分布に依存せず真のリターン分布に収束することや、真の分布のモーメントに収束する速度について報告する。\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003ePDFファイルサイズ: \u003c\/strong\u003e4,417 Kバイト\u003c\/p\u003e","brand":"IEEJ-PDF","offers":[{"title":"PDFダウンロード（一般価格440円\/会員価格220円） \/ A4 \/ 6","offer_id":46406430228719,"sku":"IEEJ-CT10TC04013-PDF","price":440.0,"currency_code":"JPY","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0718\/9512\/2159\/files\/IEEJ-PDF_4cf487be-3048-4ff7-820f-a37c635d81a1.png?v=1745138224","url":"https:\/\/ieej.bookpark.ne.jp\/products\/ieej-ct10tc04013","provider":"電気学会 電子図書館","version":"1.0","type":"link"}