このページの本文へ移動
  1. ホーム >
  2. プレスリリース >
  3. 業界初!文書に含まれる社外秘マークや透かし文字を検出

PRESS RELEASE (技術)

2010年9月6日
株式会社富士通研究所

業界初!文書に含まれる社外秘マークや透かし文字を検出

機密文書の漏えい対策を実現

株式会社富士通研究所(注1)は、機密文書に含まれる社外秘マークや、「関係者外秘」などの背景の透かし文字を検出することで、機密文書の漏えい対策を行う技術を開発しました。

従来のようにテキスト情報からの特定文字列(社外秘など)の検出だけでなく、マークや透かし文字も検出することで、高い精度で機密文書と判断することが可能になります。

本技術により、誤って機密文書を添付したメールを社外宛に送信することを防いだり、社内での機密文書の印刷を抑止したりするなど、さまざまな情報漏えい対策が可能になります。

本技術の詳細は、9月14日から行われる電子情報通信学会ソサイエティ大会にて発表します。

開発の背景

近年、個人情報や社外秘情報を記録した機密文書が電子メールやUSBメモリなどを介して外部に漏えいする事故が問題となっています。そこで、PCから社外に向けて送信されるデータを監視し、その送信データに機密情報が含まれていた場合には、警告を行ったり、送信を保留したりする仕組みが求められています。

課題

文書の漏えい対策を行うためには、その文書の機密性を判断する必要があります。文書ごとに機密性を人手で設定することは煩雑な作業となるため、文書に含まれるテキスト情報から特定文字列(関係者外秘など)を検出することで機密性を判断する方法がしばしば取られています。しかし、文書の機密性はテキスト情報だけでなく、マークや背景の透かし文字のような形式で指定される場合も少なくありません。機密文書であることを高い精度で判断するにはこのようなさまざまな形式に対応することが課題となっています。


図1 機密文書と判断する要素である3点

開発した技術

このたび、文書に含まれるテキスト情報、マーク、透かし文字から機密性を検出する技術を開発しました。


図2 機密キーワードを検出するまでの流れ
  1. 文書作成にはさまざまなアプリケーションが利用されるため、どのアプリケーションの文書に対しても処理ができるように、仮想的な印刷処理を行い、汎用的に用いられる印刷データ(EMF:Enhanced Metafile)を作成します。
  2. このEMFを解析することで、テキストや描画されている図形、画像を種類ごとに適切に分離します。
  3. 分離した種類ごとに、それぞれに適した文字認識処理を行うテキスト抽出を行います。透かし文字やマークなど、テキスト形式ではないイメージに関しては、そのイメージの描画方法に応じた解析処理を行ったのち、文字認識処理により文字情報を抽出します。

効果

本技術により、文書作成のアプリケーションに関わらず、マークや透かし文字を検出できるようになります。たとえば、「社外秘」「関係者外秘」などの機密表現を指定するだけで、社外秘マークが入っている文書をメールで社外宛に送付するのを警告したり、機密文書を印刷したことを自動的にログに残すといった情報漏えい防止システムを構築することができます。

  従来 今回
テキストコード抽出 ページ全体をOCR
テキスト 丸。ただしベクトルフォントは不可 (*1) 丸。ただしレイアウト解析結果の精度に依存 (*2) 可
透かし文字 三角。線画図形の透かし文字は不可 (*3) 不可 可
社外秘マーク 不可 三角。レイアウト解析結果の精度に依存 (*2) 可

(注)丸三角の差は、検出率の値の差
*1:ベクトルフォントは不可、*2:レイアウト解析結果の精度に依存、*3: 線画図形の透かし文字は不可

図3 従来技術と今回技術の比較

今後

今後は、本技術を応用し、メールの添付文書チェックや、文書管理システムにおける機密文書の流通監視への適用などに向け、2011年度の実用化を目指します。

商標について

記載されている製品名などの固有名詞やアイコンは、各社の商標または登録商標です。

以上

注釈

  注1 株式会社富士通研究所:
代表取締役社長 富田達夫、本社 神奈川県川崎市。

本件に関するお問い合わせ

株式会社富士通研究所
ソフト&ソリューション研究所 言語・メディア研究部
電話: 044-754-2678 (直通)
E-mail: lm-pr@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。