繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案

¥330 JPY

セール売り切れ

税込

カテゴリ: 研究会(論文単位)

論文No: ST13117

グループ名: 【C】電子・情報・システム部門システム研究会

発行日: 2013/11/24

タイトル(英語): Inverse reinforcement learning to estimate a time-dependent reward function from cyclic sequences of states.

著者名: 田丸順基(筑波大学),澁谷長史(筑波大学)

著者名(英語): Tamaru Junki(University of Tsukuba),Shibuya Takeshi(University of Tsukuba)

要約(日本語): 本稿では周期的な状態系列から時刻に依存する報酬を推定する逆強化学習を提案する。窓ふきなど家事の繰り返し動作の自動化において、多様な用途に応じて専門知識のないユーザでもロボットの制御系を構築出来ることが必要である。非繰り返し動作の獲得においては、直接教示法を用いた強化学習と逆強化学習の組み合わせることで、未知環境でもロボットに行動則の獲得させることが可能である。しかし、この手法では繰り返し動作の獲得ができないという問題がある。そこで、直接教示から時間遷移によって変化する報酬関数を推定する手法を提案する。シミュレーション実験により、繰り返し動作を学習できることを示した。

原稿種別: 日本語

PDFファイルサイズ: 839 Kバイト

販売タイプ PDFダウンロード（一般価格330円/会員価格220円）

書籍サイズ A4

ページ数 6

数量

詳細を表示する

国/地域

繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案

繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案