適応共鳴理論を用いたProfit Sharing型強化学習システム
適応共鳴理論を用いたProfit Sharing型強化学習システム
カテゴリ: 部門大会
論文No: GS14-3
グループ名: 【C】平成15年電気学会電子・情報・システム部門大会講演論文集
発行日: 2003/08/29
タイトル(英語): Profit Sharing style reinforcement learning system with Adaptive Resonance Theory
著者名: 水野 祥太郎(山口大学),大林 正直(山口大学),小林 邦和(山口大学),呉本尭 (山口大学)
著者名(英語): Shotaro Mizuno(Yamaguchi University),Masanao Obayashi(Yamaguchi University),Kunikazu Kobayashi(Yamaguchi University),Ben-yao Wo(Yamaguchi University)
キーワード: 適応共鳴理論|強化学習|Q-learning|プロフィットシェアリング|Adaptive Resonance Theory|reinforcement learning |Q-learning|Profit Sharing
要約(日本語): 特徴空間上に分布したデータ集合を,ある一点の分類尺度(ビジランスパラメータ)に基づいて分類するART(Adaptive Resonance Teory:適応共鳴理論)がGrossberg等により提案されている.
ARTの分類では,ビジランスパラメータと呼ばれる分類尺度にもとづいて,それ以上の類似度を満足するカテゴリーを自己組織的に生成し,データ集合の特徴を反映した数で分類が可能である.
ARTでは「競合」と「共鳴」の二つの操作により,既存のカテゴリーの選択と新しいカテゴリーの生成が適切に行われることから,過去と現在の学習結果を矛盾することなく共存(いわゆる「可塑性-安定性のジレンマ(過去に獲得した知識と新たに獲得した知識をどのように矛盾なく共存させるかという問題)」を回避)させることができる.
しかしながら,特徴空間上のデータ集合を一定の分類尺度に基づいて分類しようとする場合,生成されるカテゴリの空間的な配置やその個数が一意に定まらないため,多くの分類結果が存在する.ARTによる分類では,データの提示中順序によってカテゴリの配置や個数が変化するため,同じ集合を分類した場合でも,異なるカテゴリ数・異なる分類結果が得られることがある.
本研究では,ART1を用いた強化学習システムを提案する.エージェントが迷路問題を解く上において,ARTのカテゴリー選択でエージェントの現在環境を分類し,Profit Sharingの類似法を用いて行動を強化学習する操作を行った.さらに簡単迷路において,提案システムと,よく用いられる強化学習方式の1つであるQ-learning法とのシミュレーション比較を行った.
PDFファイルサイズ: 3,337 Kバイト
受取状況を読み込めませんでした
