複数方策を用いた転移学習における状態分布の類似度に基づく方策統合
複数方策を用いた転移学習における状態分布の類似度に基づく方策統合
カテゴリ:部門大会
論文No:MC3-3
グループ名:【C】2025年電気学会電子・情報・システム部門大会
発行日:2025/8/20
タイトル(英語):Policy Integration Based on State Distribution Similarity for Transfer Learning with Multiple Policies
著者名:田中 快(東京電機大学),澁谷 知弥(東京電機大学),山岸 航平(東京電機大学),河野 仁(東京電機大学),鈴木 剛(東京電機大学)
著者名(英語): Kai Tanaka (Tokyo Denki University),Tomoya Shibuya (Tokyo Denki University),Kohei Yamagishi (Tokyo Denki University),Hitoshi Kono (Tokyo Denki University),Tsuyoshi Suzuki (Tokyo Denki University)
キーワード:類似性評価,方策統合,最適輸送,転移学習,強化学習,Similarity Evaluation,Policy Integration,Optimal Transport,Transfer Learning,Reinforcement Learning
要約(日本語):強化学習を用いた転移学習において、学習速度を改善し動的環境への適応を可能にする手法としてSAP-netが提案されている。SAP-netの課題として、扱う知識の数に応じた計算時間の増大が挙げられる。そこで、JSダイバージェンスを用いて知識の類似性を評価し、相加平均によって知識を統合することで知識数を減らす手法が提案されているが、統合知識の性能の観点で課題が残っていた。本稿ではこれを改善するため、最適輸送を用いた類似性評価手法と、知識を重心によって統合する手法を提案する。さらに、新規な評価方法である転倒数を用いた評価と、実際の転移学習における総ステップ数を用いた評価手法によって評価する。実験の結果、転倒数スコアにおいても転移学習時の総ステップ数においても、従来手法に比して提案手法が改善された結果を示し、提案手法の優位性が示唆された。
本誌掲載ページ:1142-1147p
原稿種別:日本語
PDFファイルサイズ:478Kバイト
受取状況を読み込めませんでした
