報酬と罰が混合する環境における深層経験強化型学習に関する一考察

¥440 JPY

セール売り切れ

税込

カテゴリ: 部門大会

論文No: TC11-4

グループ名: 【C】2021年電気学会電子・情報・システム部門大会

発行日: 2021/09/08

タイトル(英語): A Study on Deep Exploitation-oriented Learning Method in a Mixed Reward and Penalty Environment

著者名: 宮崎和光（大学改革支援・学位授与機構）

著者名(英語): Kazuteru Miyazaki (National Institution for Academic Degrees and Quality Enhancement of Higher Education)

要約(日本語): 深層学習と強化学習を融合させた深層強化学習が注目されている。そこでは、多くの場合強化学習手法としてQ-learning（QL）が利用されている。それに対し、著者らは、経験を強く強化する立場からProfit Sharing（PS）などの経験強化型学習に注目している。経験強化型学習と深層学習を融合させた手法としてDQNwithPSなどの多くの手法が提案されいるが、報酬と罰が混在する環境においては、QLからの完全な独立は実現されていない。本論文では、報酬と罰が混在する環境において、QLを用いない深層経験強化型学習手法を提案し、数値例により有効性を確認する。

PDFファイルサイズ: 213 Kバイト

販売タイプ PDFダウンロード（一般価格440円/会員価格220円）

書籍サイズ A4

ページ数 6.0

数量

詳細を表示する

国/地域

報酬と罰が混合する環境における深層経験強化型学習に関する一考察

報酬と罰が混合する環境における深層経験強化型学習に関する一考察