報酬が変化する環境における強化学習についての研究事例

¥440 JPY

セール売り切れ

税込

カテゴリ: 部門大会

論文No: TC1-3

グループ名: 【C】平成26年電気学会電子・情報・システム部門大会講演論文集

発行日: 2014/09/03

タイトル(英語): Case studies of reinforcement learning in environment with dynamic reward functions

著者名: 澁谷長史(筑波大学)

著者名(英語): Takeshi Shibuya(University of Tsukuba)

キーワード: 強化学習|reinforcement learning

要約(日本語): 本稿では、報酬が変化する環境のための強化学習に関する研究について、いくつかの研究事例を報告する。強化学習は、学習主体であるエージェントが環境と相互作用しながら望ましい行動を獲得する枠組みである。この枠組みでは、エージェントは報酬の最大化を目指して学習を行う。状態空間内のある状態に到達するための報酬設定は比較的容易であるが、状態空間上の軌道を学習させようとしたり、通過点を設定したりすると、その報酬設定は困難であるという課題がある。また、強化学習アルゴリズムの多くが、環境がマルコフ決定過程と呼ばれる時不変の数理モデルで環境が記述できる仮定を要請するため、時間とともに報酬を変化させる手法をつかっても、十分な性能を得ることができない。本稿では、このような環境において学習を行うための手法について、いくつかの研究事例を報告する。

PDFファイルサイズ: 204 Kバイト

販売タイプ PDFダウンロード（一般価格440円/会員価格220円）

書籍サイズ A4

ページ数 3

数量

詳細を表示する

国/地域

報酬が変化する環境における強化学習についての研究事例

報酬が変化する環境における強化学習についての研究事例