学習初期に学習率の分散を考慮した学習率の範囲を動的に制御するAdamの大規模化
学習初期に学習率の分散を考慮した学習率の範囲を動的に制御するAdamの大規模化
カテゴリ: 部門大会
論文No: GS12-6
グループ名: 【C】2021年電気学会電子・情報・システム部門大会
発行日: 2021/09/08
タイトル(英語): A dynamically control of learning rate for Adam using variance in early learning stage -Apply to large scale Networks-
著者名: 行木 大輝(千葉工業大学),山口 智(千葉工業大学)
著者名(英語): Daiki Nameki (Chiba Institute of Technology),satoshi Yamaguchi (Chiba Institute of Technology)
キーワード: ニューラルネットワーク|最適化アルゴリズム|AdamAdam
要約(日本語): Adamはニューラルネットワークにおける一般的な最適化アルゴリズムの一つである。しかし問題が複雑になるとSGDに比べて最終的な汎化性能が良くならないことや、学習初期での学習率の分散が大きくなり極端な値でパラメータ更新をしてしまうなどの問題が考えられている。近年ではこれらを解決するためにAdamからSGDに動的に切り替えて学習を行うAdaBoundや、学習初期では小さな学習率を設定し、学習を進めていく中で徐々に学習率の値を大きくしていくWarmUpをAdamに対して適用したRAdamが提案されている。我々はAdaBoundで用いられる学習率の上限に対してWarmUpを適用することを提案している。この際、提案したアルゴリズムはネットワーク規模が大きくなるほど精度の向上が確認できた。そこで本研究ではより大規模なネットワークでの評価を行った。
PDFファイルサイズ: 278 Kバイト
受取状況を読み込めませんでした
