報酬と罰が混合する環境における深層経験強化型学習に関する一考察
報酬と罰が混合する環境における深層経験強化型学習に関する一考察
カテゴリ: 部門大会
論文No: TC11-4
グループ名: 【C】2021年電気学会電子・情報・システム部門大会
発行日: 2021/09/08
タイトル(英語): A Study on Deep Exploitation-oriented Learning Method in a Mixed Reward and Penalty Environment
著者名: 宮崎 和光(大学改革支援・学位授与機構)
著者名(英語): Kazuteru Miyazaki (National Institution for Academic Degrees and Quality Enhancement of Higher Education)
キーワード: 深層強化学習|経験強化型学習|報酬と罰|Q-learning|Profit Sharing|Deep Reinforcement Learning|Exploitation-oriented Learning|Reward and Penalty|Q-learning|Profit Sharing
要約(日本語): 深層学習と強化学習を融合させた深層強化学習が注目されている。そこでは、多くの場合強化学習手法としてQ-learning(QL)が利用されている。それに対し、著者らは、経験を強く強化する立場からProfit Sharing(PS)などの経験強化型学習に注目している。経験強化型学習と深層学習を融合させた手法としてDQNwithPSなどの多くの手法が提案されいるが、報酬と罰が混在する環境においては、QLからの完全な独立は実現されていない。本論文では、報酬と罰が混在する環境において、QLを用いない深層経験強化型学習手法を提案し、数値例により有効性を確認する。
PDFファイルサイズ: 213 Kバイト
受取状況を読み込めませんでした
