PRESS RELEASE (技術)
2006-0163
2006年10月16日
株式会社富士通研究所
~多様なレイアウトの帳票から、見出しやデータの論理構造を高精度に認識~
e-文書法や日本版SOX法(注3)により、帳票データの電子化の必要性が増大しています。納品書や見積書のように、さまざまな取引先から送られてくる帳票は、氏名や金額といった項目の論理的な構造は似ていても、それぞれレイアウトや見出し表記が異なっています(非定型帳票)。これら非定型帳票に対しては、定型帳票のようにあらかじめレイアウトを定義してからOCR(文字認識技術)を適用することはできず、一枚ずつ人がデータを手作業で入力するため、膨大なコストがかかっていました。そこで、見出しやデータをレイアウト定義なしで、論理的な構造を認識できる技術が必要となってきました。
|
従来、非定型帳票内の項目やデータの論理的な構造を認識する技術として、あらかじめ見出し辞書に登録してある「帳票番号」のような文字列をまず帳票中から認識し、次に、その見出しの位置から一定の範囲内文字列を帳票番号のデータと認識していました。しかし、この方式では、次のような問題点がありました。
今回、確率推論を用いた、帳票の論理構造認識技術を新たに開発しました。まず、見積書や申込書などの帳票の種類に応じて、各論理要素(見出しやデータ)に対応する文字列の特徴と、論理要素間の関係を定義した論理構造パターンを知識として用意します。論理構造パターンは、見積書や請求書など帳票の種類ごとに用意すれば良く、従来と違って各帳票別のレイアウト定義は不要です。
論理構造パターンにおいて論理要素間の関係を確率ネットワークとして表現し、そのネットワーク上で確率を伝搬させることで、各論理要素に対応する最も確からしい文字列を認識します。これにより、以下が可能になりました。(図2。特許出願済み)
|
本技術を当社指定の評価文書(20文書)に適用し、論理構造認識率(論理要素に対する文字列の対応付け正答率)91.7パーセントを達成しました。
また、従来手入力で行っていた非定型帳票からのデータ入力作業コストは、約60パーセント削減(コストモデルに基づく試算による)できます。たとえば、これまで5日かかっていたデータ入力作業を2日に短縮できます。さらに、本技術によりタグ付き検索のような新たな情報の利活用が可能になります。
2007年度に、富士通株式会社のe-文書、内部統制関連ソリューションを支えるOCRソフト、スキャナ製品などへの搭載・提供を目指します。
以上
電話: 044-754-2678(直通)
E-mail: lm-pr@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。