富士通

 

  1. ホーム >
  2. プレスリリース >
  3. 大量の文書データから固有名詞を高精度に抽出する技術を開発

PRESS RELEASE (技術)

2009年11月24日
株式会社富士通研究所

大量の文書データから固有名詞を高精度に抽出する技術を開発

固有名詞辞書を自動生成する技術を新規に開発し、抽出ミスの数を60%削減

株式会社富士通研究所(注1)(以下、富士通研究所)はこのほど、文章中から人名や組織名、地名などの固有名詞を精度良く抽出する技術を開発しました。今回開発した技術により、新聞記事から約97%の精度で人名を正しく抽出し、従来の抽出手法と比較して抽出ミスの数を60%近く減少させることに成功しました。

単語抽出に必要となる固有名詞辞書を、文書データから自動的に生成する技術を開発したことにより、文書検索や、固有名詞チェック、個人情報の匿名化などの作業を効率よく実施することが可能になります。

本技術を適用した新聞記事作成業務支援ソリューションを、2009年11月24日(火曜日)から28日(金曜日)まで、東京国際展示場(東京ビッグサイト)で開催される第20回新聞製作技術展(JANPS2009)で展示いたします。

開発の背景と課題

新聞の編集やWebサイトの更新など大量の文書データを扱う業務においては、文書データのキーワード検索やそれを用いた文書作成が業務の中で大きな割合を占めています。しかし、キーワード検索においては、目的のキーワードとは無関係な結果が数多く検索されてしまい、必要な情報をすぐに見つけられないという問題があります。

例えば、目的のキーワードを見つけられない原因として、「川崎さん」や「川崎市」の「川崎」のように、単語の意味が「人名」や「地名」であることを区別できていないことがあります。これを解決するためには、人名や組織名、地名などの固有名詞を判別して抽出する必要があり、以下の2つの技術が必要でした。

  1. 「川崎さん」のように“右隣が「さん」は人名”という、固有名詞を文脈情報に基づいて抽出する「規則」の作成。
  2. 「富士通の川崎さん」を、「富士通」は「組織名」で、「川崎さん」は「人名」と判別する固有名詞辞書の作成。

従来の人名や地名などの固有名詞辞書は辞書データを人手で作成しなければならず、登録件数の多い辞書の作成や更新には多大な時間とコストが必要でした。このため、辞書を自動的に生成することが重要な課題となっていました。


図1 固有名詞の組織名(緑)、人名(赤)、地名(青)を抽出してハイライト

開発した技術

今回、精度の高い固有名詞抽出のために、固有名詞辞書の自動生成手法および、生成した辞書を用いる抽出技術を開発しました(図2)。固有名詞の抽出は、学習フェーズと抽出フェーズの2つのフェーズで処理を行います。

富士通研究所が行った人名抽出の実験では、新聞記事から約97%の精度で人名のみを正しく抽出しました。自動抽出によって項目を追加した辞書を利用しない場合と比較して、抽出ミスの数を60%近く減少させました。また、新聞記事1件あたり、平均0.1秒で固有名詞を抽出でき(注2)、多数の文書データへの適用も可能です。


図2 今回の技術

開発した技術の特長

  1. 学習フェーズ

    正解事例をもとに、固有名詞を抽出するための規則を生成します。生成する規則の例は以下のようになります。

    • 前後の単語から得られる文脈情報を用いる規則:

      “右隣が「さん」→人名”
      “右隣が「所属」→組織名”

    • 「富士」が「人名」、「富士通」が「組織名」のように一致する文字列を含む複数の固有名詞が辞書に登録されている場合に対処する規則:

      “辞書で判別された人名候補より組織名候補が長い文字列→組織名”

  2. 抽出フェーズ

    作成した固有名詞抽出規則を用いて文章から固有名詞を抽出します。固有名詞抽出では、「富士通市役所」のように固有名詞辞書を用いた抽出だけでなく、文脈情報も考慮して抽出を行います。したがって、「富士通大学」のように固有名詞辞書に登録されていない単語であっても固有名詞として抽出することができ、さらに抽出結果から辞書データを自動生成して固有名詞辞書に追加することができます。

効果

本技術を用いることで、文書検索や文書作成の支援が可能になります。たとえば、検索対象の文書から固有名詞を抽出することで、「川崎」のように「地名」にも「人名」にもなりうる単語について意味の違いを区別した検索ができます。また、図3のように、抽出結果を視覚的に見せることによって、固有名詞の表記チェックや文書中の個人情報を匿名化する作業を支援します。


図3 固有名詞の抽出結果を変換

今後

本技術を適用した新聞記事作成支援ソリューションを、2010年度後半に提供する予定です。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

  注1 株式会社富士通研究所:
代表取締役社長 村野和雄、本社 神奈川県川崎市。
  注2 平均0.1秒で固有名詞の抽出が可能:
「インテル® Xeon® プロセッサー 5460(3.16GHz)」を搭載した計算機を使用した場合。

技術に関するお問い合わせ

株式会社富士通研究所
ナレッジテクノロジ研究部
電話: 044-754-2652(直通)
E-mail: fj-ne-extraction@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。