{"product_id":"ieej-st13117","title":"繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案","description":"\u003cp\u003e\u003cstrong\u003eカテゴリ: \u003c\/strong\u003e研究会(論文単位)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e論文No: \u003c\/strong\u003eST13117\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eグループ名: \u003c\/strong\u003e【C】電子・情報・システム部門 システム研究会\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e発行日: \u003c\/strong\u003e2013\/11\/24\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eタイトル(英語): \u003c\/strong\u003eInverse reinforcement learning to estimate a time-dependent reward function from cyclic sequences of states.\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名: \u003c\/strong\u003e田丸 順基(筑波大学),澁谷 長史(筑波大学)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名(英語): \u003c\/strong\u003eTamaru Junki(University of Tsukuba),Shibuya Takeshi(University of Tsukuba)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eキーワード: \u003c\/strong\u003e逆強化学習|強化学習|ダイレクトティーチング|ティーチングプレイバック|繰り返し動作|inverse reinforcement learning|reinforcement learning|direct teaching|teaching playback|cyclic sequences\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e要約(日本語): \u003c\/strong\u003e本稿では周期的な状態系列から時刻に依存する報酬を推定する逆強化学習を提案する。窓ふきなど家事の繰り返し動作の自動化において、多様な用途に応じて専門知識のないユーザでもロボットの制御系を構築出来ることが必要である。非繰り返し動作の獲得においては、直接教示法を用いた強化学習と逆強化学習の組み合わせることで、未知環境でもロボットに行動則の獲得させることが可能である。しかし、この手法では繰り返し動作の獲得ができないという問題がある。そこで、直接教示から時間遷移によって変化する報酬関数を推定する手法を提案する。シミュレーション実験により、繰り返し動作を学習できることを示した。\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e原稿種別: \u003c\/strong\u003e日本語\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003ePDFファイルサイズ: \u003c\/strong\u003e839 Kバイト\u003c\/p\u003e","brand":"IEEJ-PDF","offers":[{"title":"PDFダウンロード（一般価格330円\/会員価格220円） \/ A4 \/ 6","offer_id":46385018798319,"sku":"IEEJ-ST13117-PDF","price":330.0,"currency_code":"JPY","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0718\/9512\/2159\/files\/IEEJ-PDF_84b26d0a-6e7f-4483-9bf8-b1d8e16eb44d.png?v=1744332404","url":"https:\/\/ieej.bookpark.ne.jp\/products\/ieej-st13117","provider":"電気学会 電子図書館","version":"1.0","type":"link"}