稀覯書のテキスト化システム - 書誌学研究支援を目指して -
稀覯書のテキスト化システム - 書誌学研究支援を目指して -
カテゴリ: 部門大会
論文No: TC5-4
グループ名: 【C】平成16年電気学会電子・情報・システム部門大会講演論文集
発行日: 2004/09/02
タイトル(英語): A text extraction system for rare book
著者名: 岸田 智弘(慶應義塾大学),徳永 聡子(慶應義塾大学),小沢 慎治(慶應義塾大学)
著者名(英語): Tomohiro Kishida(Keio University),Satoko Tokunaga(Keio University),Shinji Ozawa(Keio University)
キーワード: 稀覯書|文書解析|文字認識|電子図書館|rare book|document analysis|charctor recognition|degital libraly
要約(日本語): 書誌学の研究分野では、稀覯書のように古くに印刷された書物の内容を現在の英語テキストに変換する要求がある。従来は研究者が多大な労力を掛けて実現していた。これを文字認識技術の立場から見れば、印刷用活字が現在と比較して多様であり、類似の文字が多くいわゆる文字認識プログラムで対応することができない。このような背景を踏まえて、稀覯書に適応した書誌表面画像からテキストを抽出するシステムを提案する。本システムの特徴は稀覯書の特徴を分析し適切な分析手法を構築することと、システムを書誌学の専門家である研究者が操作し、システムの認識結果の評価および問い合わせに対して解答することにある。さらにこの内容を利用してシステムの逐次的改善することにより、数ページの学習により認識率の高いテキスト化システムを構築することができた。
PDFファイルサイズ: 2,893 Kバイト
受取状況を読み込めませんでした
