{"product_id":"ieej-st13013","title":"Q-learningアルゴリズムに基づくForward-Backward型学習に関する基礎検討","description":"\u003cp\u003e\u003cstrong\u003eカテゴリ: \u003c\/strong\u003e研究会(論文単位)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e論文No: \u003c\/strong\u003eST13013\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eグループ名: \u003c\/strong\u003e【C】電子・情報・システム部門 システム研究会\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e発行日: \u003c\/strong\u003e2013\/05\/31\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eタイトル(英語): \u003c\/strong\u003eA Basic Study on Forward-Backward Type Learning Based on the Q-learning Algorithm\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名: \u003c\/strong\u003e齋藤 雅矩(神奈川大学),増田 和明(神奈川大学),瀬古沢 照治(神奈川大学)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名(英語): \u003c\/strong\u003eSaito Masanori(Kanagawa Universiry),Masuda Kazuaki(Kanagawa University),Sekozawa Teruji(Kanagawa Universiry)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eキーワード: \u003c\/strong\u003e機械学習|強化学習|Ｑ－Ｌｅａｒｎｉｎｇ|高速化|Machine Learning|Reinforcement Learning|Q-Learning|Acceleration\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e要約(日本語): \u003c\/strong\u003eQ-learningは，エージェントが報酬の獲得を通して現在の状態とその状態においてとり得る行動に対する状態行動価値関数（Q値）を増やし，初期状態（スタート）から目標とする状態（ゴール）に到達するための方策を確率的に学習するアルゴリズムである。しかし，Q-learningは正の報酬を与える状態を発見するまでQ値が増加せず，そのために最適な方策を効率よく探索できないため，学習が遅いことが問題視されている。そこで，「学習者が一度でも正の報酬を獲得したら，その報酬を与える状態をゴールと認識できる」ことを想定し，ゴールからスタートへ向かう逆向きの探索を付加的に行い，正の報酬を源とするQ値の増加を促進することを考える。本論文では，上記の概念を取り入れたFW-BW（forward-backward）型Q-learningを提案し，数値実験を通して提案手法の有効性を調べる。\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e原稿種別: \u003c\/strong\u003e日本語\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003ePDFファイルサイズ: \u003c\/strong\u003e990 Kバイト\u003c\/p\u003e","brand":"IEEJ-PDF","offers":[{"title":"PDFダウンロード（一般価格330円\/会員価格220円） \/ A4 \/ 7","offer_id":46385017225455,"sku":"IEEJ-ST13013-PDF","price":330.0,"currency_code":"JPY","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0718\/9512\/2159\/files\/IEEJ-PDF_2183e79a-560e-40c3-b32f-0e08212d5791.png?v=1744332337","url":"https:\/\/ieej.bookpark.ne.jp\/products\/ieej-st13013","provider":"電気学会 電子図書館","version":"1.0","type":"link"}