予測報酬量に応じた反応時間を有する強化学習とその応用
予測報酬量に応じた反応時間を有する強化学習とその応用
カテゴリ: 部門大会
論文No: TC16-4
グループ名: 【C】平成30年電気学会電子・情報・システム部門大会プログラム
発行日: 2018/09/05
タイトル(英語): The Application of a Reinforcement Learning Model with Reaction Time to Magnitude of Predicted Reward
著者名: 渡邊 駿(釧路工業高等専門学校)
著者名(英語): Shun Watanabe()
キーワード: 強化学習|反応時間|予測報酬予測報酬|Reinforcement Learning|Reaction Time|Predicted Reward
要約(日本語): 近年,強化学習は,未知の状態において行動選択の試行錯誤を繰り返し,様々な状態に対する行動選択の成功と失敗の経験から得られる報酬を予測し,最も報酬が高くなる適切な行動学習を可能にするアルゴリズムとして注目されている。そして,生物にもこの強化学習と呼ばれるアルゴリズムと同様のメカニズムがあり,生物の生存戦略と子孫繁栄などに役立っていることが知られている。また,生物では,環境から多くの報酬が得られると予想されるときに反応時間が短くなり,環境から得られる報酬が少ないと予想されるときに反応時間が長くなることが知られている。本発表者は,この生物の予測報酬量に対する不定な反応時間に注目し,これまで一定時間間隔での行動を前提としていた強化学習モデルに対して,予測報酬量に応じた反応時間を取り入れた不定時間間隔で行動が可能な強化学習モデルの研究を行っている。本発表ではそのモデルとその応用性について説明する。
PDFファイルサイズ: 614 Kバイト
受取状況を読み込めませんでした
