2つのエピソードを持つ経験強化型深層強化学習手法の提案

¥440 JPY

セール売り切れ

税込

カテゴリ: 部門大会

論文No: TC16-5

グループ名: 【C】平成30年電気学会電子・情報・システム部門大会プログラム

発行日: 2018/09/05

タイトル(英語): Proposal of Exploitation-oriented Deep Reinforcement Learning Method with Two Episodes

著者名: 小玉直樹(東京理科大学),原田拓(東京理科大学),宮崎和光(大学改革支援・学位授与機構)

著者名(英語): Naoki Kodama|Taku Harada|Kazueru Miyazaki

要約(日本語): 近年，Deep Learningが注目を浴びている。Deep Q-Network (DQN)はDeep LearningとQ-learningを組み合わせた手法で，Atari2600のゲームで優れた結果を得ている。さらに，DQNと経験強化型学習のProfit Sharingを組み合わせた手法としてDQNwithPSやその改良型のLearning Acceleration DQN (LADQN)が提案されており，DQNに比べて試行錯誤回数の低減が実現されている。しかし，LADQNはタスクによって経験強化の影響に大きな差がある。例えば，報酬獲得頻度が高く，エピソード長が極端に短い場合には，経験強化の性能を活かしきれない。一方，報酬獲得頻度が低い場合には，経験強化プロセスはほとんど行われない。そこで本論文では，報酬獲得頻度に影響しない経験強化を実現するために，LADQNの報酬分配アルゴリズムを改良し，経験強化のためのエピソードを追加した手法を提案する。この提案手法はCart-Pole問題に適用し，その有効性を検証する。

PDFファイルサイズ: 526 Kバイト

販売タイプ PDFダウンロード（一般価格440円/会員価格220円）

書籍サイズ A4

ページ数 5

数量

詳細を表示する

国/地域

2つのエピソードを持つ経験強化型深層強化学習手法の提案

2つのエピソードを持つ経験強化型深層強化学習手法の提案