ビジネス文書からのメタデータ抽出のためのルール自動生成技術
ビジネス文書からのメタデータ抽出のためのルール自動生成技術
カテゴリ: 論文誌(論文単位)
グループ名: 【C】電子・情報・システム部門
発行日: 2011/08/01
タイトル(英語): Sample-based Collection and Adjustment Algorithm of Rules for Metadata Extraction on Business Documents
著者名: 松本 俊子((株) 日立ソリューションズ),大峡 光晴((株) 日立ソリューションズ),小野山 隆((株) 日立ソリューションズ),秋吉 政徳(大阪大学大学院情報科学研究科マルチメディア工学専攻)
著者名(英語): Toshiko Matsumoto (Hitachi Solutions, Ltd.), Mitsuharu Oba (Hitachi Solutions, Ltd.), Takashi Onoyama (Hitachi Solutions, Ltd.), Masanori Akiyoshi (Graduate School of Information Science and Technology, Osaka University)
キーワード: メタデータ抽出,ルール自動生成,文書管理,論理構造解析 metadata extraction,rule generation,document management,logical structure analysis
要約(英語): Toward facile introduction of metadata-based document management system, we propose an algorithm which uses sample documents and their manually specified metadata as training data, and generates metadata-extraction rules. Our algorithm enumerates candidates of keywords and layout characteristics specific to the metadata on the basis of metadata occurrence in the training data. And then it examines whether each candidate is specific to only one kind of metadata. In an experiment on Japanese business documents and weekly reports, automatically generated rules have achieved metadata extraction as accurate as manually adjusted one.
本誌: 電気学会論文誌C(電子・情報・システム部門誌) Vol.131 No.8 (2011)
本誌掲載ページ: 1502-1511 p
原稿種別: 論文/日本語
電子版へのリンク: https://www.jstage.jst.go.jp/article/ieejeiss/131/8/131_8_1502/_article/-char/ja/
受取状況を読み込めませんでした
