営業文書からのメタデータ抽出のためのパラメータ自動生成技術
営業文書からのメタデータ抽出のためのパラメータ自動生成技術
カテゴリ: 研究会(論文単位)
論文No: IS10046
グループ名: 【C】電子・情報・システム部門 情報システム研究会
発行日: 2010/05/28
タイトル(英語): Sample-based Collection and Adjustment Algorithm of Parameters for Metadata Extraction
著者名: 松本 俊子(日立ソフトウェアエンジニアリング株式会社),大峡 光晴(日立ソフトウェアエンジニアリング株式会社),小野山 隆(日立ソフトウェアエンジニアリング株式会社),薦田 憲久(大阪大学)
著者名(英語): MATSUMOTO Toshiko(Hitachi Software Engineering Co.,Ltd.),OBA Mitsuharu(Hitachi Software Engineering Co.,Ltd.),ONOYAMA Takashi(Hitachi Software Engineering Co.,Ltd.),KOMODA Norihisa(Osaka University)
キーワード: メタデータ抽出|パラメータ自動生成|キーワード|部分文字列|隣接文字列|レイアウト特徴|metadata extraction|parameter generation|keywords|substring|neighboring string|layout characteristics
要約(日本語): メタデータ自動抽出による業務文書管理の実現に向けて、自動抽出用文書モデルの自動生成技術を開発した。サンプル文書に対して指定した正解メタデータの周辺文字列をキーワードとして収集し、正解メタデータに特異的なレイアウト特徴を重視するよう重みパラメタを最適化するアルゴリズムを開発した。6案件分の営業文書実データを用いて評価を行い、人手で調整したパラメタと同程度のメタデータ抽出精度を達成することを確かめた。
要約(英語): Toward facile introduction of metadata-based document management system, we propose an algorithm which reads sample documents and their manually specified metadata as training data, and generates metadata-extraction parameters. Our algorithm enumerates candidates of keywords and layout characteristics specific to the metadata on the basis of metadata occurrence in the training data. And then it selects keywords from keyword occurrence and optimizes weights of layout characteristics. In an experiment on Japanese business documents, automatically generated parameters have achieved metadata extraction as accurate as a manually adjusted one.
原稿種別: 日本語
PDFファイルサイズ: 753 Kバイト
受取状況を読み込めませんでした
