営業文書からのメタデータ抽出のためのパラメータ自動生成技術

¥330 JPY

セール売り切れ

税込

カテゴリ: 研究会(論文単位)

論文No: IS10046

グループ名: 【C】電子・情報・システム部門情報システム研究会

発行日: 2010/05/28

タイトル(英語): Sample-based Collection and Adjustment Algorithm of Parameters for Metadata Extraction

著者名: 松本俊子(日立ソフトウェアエンジニアリング株式会社),大峡光晴(日立ソフトウェアエンジニアリング株式会社),小野山隆(日立ソフトウェアエンジニアリング株式会社),薦田憲久(大阪大学)

著者名(英語): MATSUMOTO Toshiko(Hitachi Software Engineering Co.,Ltd.),OBA Mitsuharu(Hitachi Software Engineering Co.,Ltd.),ONOYAMA Takashi(Hitachi Software Engineering Co.,Ltd.),KOMODA Norihisa(Osaka University)

要約(日本語): メタデータ自動抽出による業務文書管理の実現に向けて、自動抽出用文書モデルの自動生成技術を開発した。サンプル文書に対して指定した正解メタデータの周辺文字列をキーワードとして収集し、正解メタデータに特異的なレイアウト特徴を重視するよう重みパラメタを最適化するアルゴリズムを開発した。6案件分の営業文書実データを用いて評価を行い、人手で調整したパラメタと同程度のメタデータ抽出精度を達成することを確かめた。

要約(英語): Toward facile introduction of metadata-based document management system, we propose an algorithm which reads sample documents and their manually specified metadata as training data, and generates metadata-extraction parameters. Our algorithm enumerates candidates of keywords and layout characteristics specific to the metadata on the basis of metadata occurrence in the training data. And then it selects keywords from keyword occurrence and optimizes weights of layout characteristics. In an experiment on Japanese business documents, automatically generated parameters have achieved metadata extraction as accurate as a manually adjusted one.

原稿種別: 日本語

PDFファイルサイズ: 753 Kバイト

販売タイプ PDFダウンロード（一般価格330円/会員価格220円）

書籍サイズ A4

ページ数 6

数量

詳細を表示する

国/地域

営業文書からのメタデータ抽出のためのパラメータ自動生成技術

営業文書からのメタデータ抽出のためのパラメータ自動生成技術