フィルタごとに最適に量子化したCNNアクセラレーターのFPGA実装
フィルタごとに最適に量子化したCNNアクセラレーターのFPGA実装
カテゴリ: 研究会(論文単位)
論文No: ECT18097
グループ名: 【C】電子・情報・システム部門 電子回路研究会
発行日: 2018/12/21
タイトル(英語): CNN acceralator with filter-wise optimized bit precision on FPGA
著者名: 眞木 明香(東芝メモリ),宮下 大輔(東芝メモリ),中田 憲吾(東芝メモリ),橘 文彦(東芝メモリ),鈴木 智哉(東芝メモリ),出口 淳(東芝メモリ)
著者名(英語): Asuka Maki(Toshiba Memory Corporation),Daisuke Miyashita(Toshiba Memory Corporation),Kengo Nakata(Toshiba Memory Corporation),Fumihiko Tachibana(Toshiba Memory Corporation),Tomoya Suzuki(Toshiba Memory Corporation),Jun Deguchi(Toshiba Memory Corporation)
キーワード: ディープラーニング|畳み込みニューラルネットワーク|量子化|可変ビット幅|FPGA|deep learning|convolutional neural network|quantization|variable bit width|FPGA
要約(日本語): Deep Learningの推論処理において、認識精度を劣化させずに処理時間、消費電力を改善する手法として、フィルタごとに最適に量子化する手法を提案する。また、それに適したハードウェアアーキテクチャを提案する。このアーキテクチャをFPGAに実装し、ImageNetのデータセットで学習されたResNet-50で画像認識を実行、処理時間が5.3分の1に減ることを示す。
要約(英語): To improve the latency and power consumption for inference of deep convolutional neural network without penalty of accuracy, filter-wise optimized quantization with variable precision is proposed. Also the hardware architecture that fully supports it is proposed.We implement the proposed architecture on FPGA and demonstrate image recognition with ResNet-50 trained on ImageNet dataset. Latency is 5.3x improved.
原稿種別: 日本語
PDFファイルサイズ: 2,124 Kバイト
受取状況を読み込めませんでした
