強化値の期待値を考慮した動的強化関数を用いるProfit Sharing
強化値の期待値を考慮した動的強化関数を用いるProfit Sharing
カテゴリ: 部門大会
論文No: GS10-2
グループ名: 【C】平成20年電気学会電子・情報・システム部門大会講演論文集
発行日: 2008/08/20
タイトル(英語): Profit Sharing Using a Dynamic Reinforcement Function Considering Expectation Value of Reinforcement
著者名: 玉嶋 大輔(千葉大学),小圷 成一(千葉大学),岡本 卓(千葉大学),平田 廣則(千葉大学)
著者名(英語): Daisuke Tamashima(Chiba University),Seiichi Koakutsu(Chiba University),Takashi Okamoto(Chiba University),Hironori Hirata(Chiba University)
キーワード: 強化学習|Profit Sharing|強化関数|合理性定理|Reinforcement Learning|Profit Sharing|Reinforcement Function|Ineffective Rule Suppression Theorem
要約(日本語): 本研究では,強化学習法の一つであるProfit Sharingについて,新たな報酬分配方法を提案する。報酬分配を決定する強化関数の設計に関しては,合理的な解を得るための必要十分条件である合理性定理が知られている。合理性定理に従って強化関数を決定すると,学習の合理性が保証される反面,報酬の分配量は行動系列に対し指数的な速さで0に向かう。本研究では,無効ルールの強化量を期待値で見積もり,その期待値よりも有効ルールの強化量が大きくなるような減少比を動的に決定する強化関数を提案し,これを用いることで,従来手法よりも報酬の分配量を大きくできることを示す。そして,計算機実験により本手法の有効性を確認する。
PDFファイルサイズ: 4,343 Kバイト
受取状況を読み込めませんでした
