{"product_id":"ieej-is10046","title":"営業文書からのメタデータ抽出のためのパラメータ自動生成技術","description":"\u003cp\u003e\u003cstrong\u003eカテゴリ: \u003c\/strong\u003e研究会(論文単位)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e論文No: \u003c\/strong\u003eIS10046\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eグループ名: \u003c\/strong\u003e【C】電子・情報・システム部門 情報システム研究会\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e発行日: \u003c\/strong\u003e2010\/05\/28\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eタイトル(英語): \u003c\/strong\u003eSample-based Collection and Adjustment Algorithm of Parameters for Metadata Extraction\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名: \u003c\/strong\u003e松本 俊子(日立ソフトウェアエンジニアリング株式会社),大峡 光晴(日立ソフトウェアエンジニアリング株式会社),小野山 隆(日立ソフトウェアエンジニアリング株式会社),薦田 憲久(大阪大学)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e著者名(英語): \u003c\/strong\u003eMATSUMOTO Toshiko(Hitachi Software Engineering Co.,Ltd.),OBA Mitsuharu(Hitachi Software Engineering Co.,Ltd.),ONOYAMA Takashi(Hitachi Software Engineering Co.,Ltd.),KOMODA Norihisa(Osaka University)\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003eキーワード: \u003c\/strong\u003eメタデータ抽出|パラメータ自動生成|キーワード|部分文字列|隣接文字列|レイアウト特徴|metadata extraction|parameter generation|keywords|substring|neighboring string|layout characteristics\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e要約(日本語): \u003c\/strong\u003eメタデータ自動抽出による業務文書管理の実現に向けて、自動抽出用文書モデルの自動生成技術を開発した。サンプル文書に対して指定した正解メタデータの周辺文字列をキーワードとして収集し、正解メタデータに特異的なレイアウト特徴を重視するよう重みパラメタを最適化するアルゴリズムを開発した。6案件分の営業文書実データを用いて評価を行い、人手で調整したパラメタと同程度のメタデータ抽出精度を達成することを確かめた。\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e要約(英語): \u003c\/strong\u003eToward facile introduction of metadata-based document management system, we propose an algorithm which reads sample documents and their manually specified metadata as training data, and generates metadata-extraction parameters. Our algorithm enumerates candidates of keywords and layout characteristics specific to the metadata on the basis of metadata occurrence in the training data. And then it selects keywords from keyword occurrence and optimizes weights of layout characteristics. In an experiment on Japanese business documents, automatically generated parameters have achieved metadata extraction as accurate as a manually adjusted one.\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003e原稿種別: \u003c\/strong\u003e日本語\u003c\/p\u003e\u003cp\u003e\u003cstrong\u003ePDFファイルサイズ: \u003c\/strong\u003e753 Kバイト\u003c\/p\u003e","brand":"IEEJ-PDF","offers":[{"title":"PDFダウンロード（一般価格330円\/会員価格220円） \/ A4 \/ 6","offer_id":46362420936943,"sku":"IEEJ-IS10046-PDF","price":330.0,"currency_code":"JPY","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0718\/9512\/2159\/files\/IEEJ-PDF_a394d4f8-8d56-4171-b090-e678ce737624.png?v=1743627382","url":"https:\/\/ieej.bookpark.ne.jp\/products\/ieej-is10046","provider":"電気学会 電子図書館","version":"1.0","type":"link"}