このページの本文へ移動
  1. ホーム >
  2. プレスリリース >
  3. 重複した顧客データを高速に1つに統合する名寄せ技術を開発

PRESS RELEASE (技術)

2011年3月8日
株式会社富士通研究所

重複した顧客データを高速に1つに統合する名寄せ技術を開発

処理速度を従来の10倍へと高速化

株式会社富士通研究所(注1)は、顧客データベースの中から同一の顧客を示すデータを高速に検出する技術を開発しました。顧客データの名寄せに特化した類似検索手法を用いることにより、従来と同等の精度を保ったまま、処理速度を従来の約10倍に高速化しました。

本技術により、大規模な顧客データベースに対して高い精度で高速な名寄せ処理をすることが可能になり、企業合併やITシステム統合の際に必要となるデータベース統合を支援できます。

開発の背景

企業合併や企業内のITシステムの統合などに伴い、複数存在する顧客データベースを統合するニーズが高まっています。複数の顧客データベースを重複なく統合するためには、同一内容のデータであることを特定する名寄せ処理が必要です(図1)。


図1 名寄せ処理
拡大イメージ

課題

複数の顧客データベースを統合する場合、単純に一致するものを特定するだけでは表記や略し方の違い、入力ミスなどが原因で、同一の顧客であるはずのデータを見落としてしまいます。

顧客データベースの名寄せでは、顧客の名称や住所、電話番号といった顧客を特定できる項目の類似性を調べて、多くの項目で一致または類似した値をとるデータの組を同一顧客と判定します。しかし、大規模な顧客データベースにおいて、全てのデータの組み合わせについて項目ごとの類似性を計算するのでは処理に時間がかかってしまいます。

そのため、顧客データベース中の郵便番号などの特定の項目を用いて、データをいくつかのグループに分割しておき、分割したグループに属するものどうしで類似性を判断することで処理速度を向上させる方法が使われてきました。しかし、この方法では郵便番号などが同じグループ内にあるデータの組しかデータの類似性を判断できないため、グループを小さく分割した場合には名寄せしなければいけないデータの見落としが発生し、逆にグループを大きく分割すると処理に時間がかかるという問題があります。このように精度と速度を両立させて大規模なデータに適用できる名寄せ手法が課題となっていました。

開発した技術

今回、従来の手法と精度を同等に保ちつつ、約10倍高速に顧客データベースの名寄せを行うことができる技術を開発しました。開発した技術の特徴は以下の通りです。

  1. 名寄せの見落としを防止

    顧客データベース中のデータを、従来のように郵便番号といった一つの項目だけを対象に分割するのではなく、すべての項目内容を対象に他の顧客データの中から類似するデータを検索し、各項目の検索結果を総合評価することで、名寄せの見落としを少なくしました(図2)。


    図2 複数項目を用いた類似文字列検索による名寄せデータの抽出
    拡大イメージ

  2. 顧客データの名寄せに特化した類似文字列検索

    顧客データの表記の違いについて、すべてのケースを網羅して検索すると処理に時間がかかります。今回は、データどうしに共通部分があり、文字の先頭や末尾、あるいは中間部分の一箇所のみが違う程度のものであれば類似であると限定したうえで、データを高速に検索できる手法を用い(図3)、名寄せ精度を保ちつつ処理速度を向上させました。


    図3 顧客情報名寄せに特化した類似文字列検索で類似として検索されるデータの組

効果

今回開発した技術を用いることにより、従来は処理に時間がかかっていた数百万件の顧客情報の名寄せを数時間で実現することが可能となります。図4は、10項目からなる約200万件の顧客情報に名寄せを適用した結果の一例を示しています。従来技術では、名寄せ処理に15.5時間かかりましたが、今回開発した技術は、同等の名寄せの見逃し比率を保ちながら、1.4時間と従来技術の約10分の1の時間で名寄せ処理を終えることができました。


図4 従来技術と今回開発した技術の比較

今後

富士通研究所では、2011年度中に今回開発した技術を用いた顧客名名寄せの実用化を目指します。また、顧客データ以外のテキストや画像・動画のタグなどに対象範囲を広げてデータを統合する研究開発を進め、さまざまな情報を連携させたサービスの提供につなげていきます。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

注1 株式会社富士通研究所:
代表取締役社長 富田達夫、本社 神奈川県川崎市。

本件に関するお問い合わせ

株式会社富士通研究所
ソフトウェア&ソリューション研究所 ナレッジテクノロジ研究部
電話 044-754-2652(直通)
メール nayose@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。