文の構成要素を考慮した分類精度向上について
文の構成要素を考慮した分類精度向上について
カテゴリ: 全国大会
論文No: 3-039
グループ名: 【全国大会】平成20年電気学会全国大会論文集
発行日: 2008/03/19
タイトル(英語): An Improvement of Accuracy for Text Classification based on Semantic Correlations between Sentence Elements.
著者名: 内山 恵三(東京電力)
著者名(英語): Keizo Uchiyama(Tokyo Electric Power Company)
キーワード: テキスト分類|テキストマイニング
要約(日本語): テキスト分類の技術は、CRM(Customer Relationship Management)において、アンケートやお客さまの問い合わせや意見を分類分けするのに用いられるなど、テキストマイニングの中でも最も重要な技術の1つである。分類方式の中で教師データを必要としない方式は、単語の頻度情報に加えて係り受けの共起単語の頻度情報を文書クラスタの入力ベクトルとして文書を分類する研究、係り受けの共起単語?文書マトリックスを入力として共起単語をクラスタリングし、それらの単語を含むテキストを分類する方法が提案されている。しかし、文の構成要素は、係り受け単語だけでなく、係り受けの節など、依存関係は複数存在する。文の構成要素の分類精度への影響については、十分に検証されていない。分類結果は、指定された分類数にグループ分けされただけで、内容を読まなければ、分類付けの意味合いが分からない。分類数を絞り込むと、色々な内容を含んだ、「その他」分類が多くなる傾向にある。本報告では、文の構成要素を考慮したクラスタリング、代表文を分類ラベルとした分類を行い、分類精度について考察する。
原稿種別: 日本語
PDFファイルサイズ: 1,709 Kバイト
受取状況を読み込めませんでした
