畳み込みニューラルネットワークを用いた文書分類における単語分散表現の次元の検討
畳み込みニューラルネットワークを用いた文書分類における単語分散表現の次元の検討
カテゴリ: 部門大会
論文No: GS4-1
グループ名: 【C】平成30年電気学会電子・情報・システム部門大会プログラム
発行日: 2018/09/05
タイトル(英語): A Study on Word Vector Dimensions for Sentence Classifications Using Convolutional Neural Networks
著者名: 作元 卓也(千葉工業大学),山口 智(千葉工業大学)
著者名(英語): Takuya Sakumoto|Satoshi Yamaguchi
キーワード: 畳み込みニューラルネットワーク|単語分散表現|word2vec|文書分類|convolutional neural networks|distributed representations of words|word2vec|sentence classification
要約(日本語): 畳み込みニューラルネットワーク(CNN)を用いた文書分類では,CNNで処理が可能な入力を得るために,文中の単語を数値ベクトル化する単語分散表現が用いられる。単語分散表現の手法として,word2vecなどがある。これらの手法では大量の単語を数値ベクトルに変換するため,得られる数値ベクトルの次元が大きくなる傾向がある。文書分類を行うCNNへの入力は単語列で構成される文であるから,単語ベクトルが高次元になれば,CNNへの入力データの次元も非常に大きくなる。このような高次元空間において十分な学習を行うためには,大量の訓練データが必要となるが,問題によっては十分な訓練データが得られるとは限らない。訓練データが十分に集められない場合には,入力データの次元を減らすことが望ましい。本研究では,訓練データに基づいて単語分散表現を得る場合の単語ベクトルの次元の削減とそれが学習に及ぼす影響について検討する。
PDFファイルサイズ: 474 Kバイト
受取状況を読み込めませんでした
