エージェントの行動履歴の活用によるQ-learningの学習効率向上
エージェントの行動履歴の活用によるQ-learningの学習効率向上
カテゴリ: 部門大会
論文No: TC1-7
グループ名: 【C】平成26年電気学会電子・情報・システム部門大会講演論文集
発行日: 2014/09/03
タイトル(英語): Improving efficiency of Q-learning by using the agent's action history
著者名: 齋藤雅矩 (神奈川大学),増田 和明(神奈川大学),瀬古沢 照治(神奈川大学)
著者名(英語): Masanori Saito(Kanagawa University),Kazuaki Masuda(Kanagawa University),Teruzi Sekozawa(Kanagawa University)
キーワード: 機械学習|強化学習|Q-learning|行動履歴|machine learning|reinforcement learning|Q-learning|action history
要約(日本語): Q-learningは,エージェントが試行錯誤的な探索を通して獲得する報酬の期待値を最大化するように状態行動価値関数(Q値)を更新することによって,最適な方策を確率的に学習する手法である。しかし,例えば,報酬によって表現されない環境情報があるとき,Q値によって状態を適切に評価することができず,学習に時間がかかる問題がある。そこで,本研究では行動選択に履歴を利用したQ-learningを提案する。提案手法では,過去の学習の失敗を記録し,以後の探索においてそのような行動を避けることによって学習速度を向上させる。動的に変化する環境への適用も考慮する。数字実験を通して,提案手法の有効性を検討する。
PDFファイルサイズ: 527 Kバイト
受取状況を読み込めませんでした
