繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案
繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案
カテゴリ: 研究会(論文単位)
論文No: ST13117
グループ名: 【C】電子・情報・システム部門 システム研究会
発行日: 2013/11/24
タイトル(英語): Inverse reinforcement learning to estimate a time-dependent reward function from cyclic sequences of states.
著者名: 田丸 順基(筑波大学),澁谷 長史(筑波大学)
著者名(英語): Tamaru Junki(University of Tsukuba),Shibuya Takeshi(University of Tsukuba)
キーワード: 逆強化学習|強化学習|ダイレクトティーチング|ティーチングプレイバック|繰り返し動作|inverse reinforcement learning|reinforcement learning|direct teaching|teaching playback|cyclic sequences
要約(日本語): 本稿では周期的な状態系列から時刻に依存する報酬を推定する逆強化学習を提案する。窓ふきなど家事の繰り返し動作の自動化において、多様な用途に応じて専門知識のないユーザでもロボットの制御系を構築出来ることが必要である。非繰り返し動作の獲得においては、直接教示法を用いた強化学習と逆強化学習の組み合わせることで、未知環境でもロボットに行動則の獲得させることが可能である。しかし、この手法では繰り返し動作の獲得ができないという問題がある。そこで、直接教示から時間遷移によって変化する報酬関数を推定する手法を提案する。シミュレーション実験により、繰り返し動作を学習できることを示した。
原稿種別: 日本語
PDFファイルサイズ: 839 Kバイト
受取状況を読み込めませんでした
