Web上の風評をリアルタイムに検知する技術を開発

株式会社富士通研究所^(注1)と富士通研究開発中心有限公司^(注2)は、Web上の掲示板、ブログ、SNS(Social Networking Service）などに書き込まれる企業や製品についての大量かつ多様な風評情報をリアルタイムに検知する技術の開発に成功しました。この技術により、Web上の風評リスクへの対策を迅速に行なうことが可能になります。

開発の背景

CSR（Corporate Social Responsibility）の積極的な推進が企業に求められる中、企業や製品の風評情報などを迅速に把握し対策を行なうことで、ブランドイメージの低下や社会的信頼性の失墜による経営危機を避けるための風評リスク管理の重要性が高まっています。特に、Web上における風評は、不特定多数の人々に即座に伝播するため、風評に対する対応の遅れなど、リスク管理に失敗した場合の経営ダメージは甚大になりかねません。このように、Web上の風評をいかに迅速に検知するかが、風評リスク管理における最重要課題の1つとなりつつあります。

課題

CGM （Consumer Generated Media）分析サービス^(注3)を利用した従来の風評検知サービスでは、以下の課題がありました。

データの前処理
従来技術では、収集したデータを分析するために、インデックス生成^(注4)などの前処理が必要であり、風評が書き込まれてから検知するまでの間に最短でも数十分から数時間、場合によっては1日以上を要していました。
大量かつ多様な風評パターンを用いた高速な検知
風評の検知には、風評の有無を知りたい企業名または製品名などと、風評を表現する「苦情」や「故障」といった言葉の出現パターンである風評パターンを用います。従来技術では、風評パターンの数が増えると検知時間が増大するという特性があるため、数十万を越える大量かつ多様な風評パターンを漏れなく高速に検知することが困難で、一度に検知できる風評パターン数にも制限がありました。

開発した技術

上記の課題を解決するために、テキストストリーム^(注5)に対して複数の風評パターンを一括して検知する独自技術を開発し、リアルタイムに大量で多様な風評を検知することに成功しました。本技術の特長は以下の通りです（図1）。

前処理不要のリアルタイム検知技術
今回開発した検知技術では、Web上に次々と書き込まれる記事に対して、インデックス生成などの前処理を一切行なわず、即座に検知処理を適用することにより、登録された風評パターンにマッチした記事をリアルタイムに検知します。これにより、風評が書き込まれてから検知するまでに要する時間を大幅に短縮することができます。
大量かつ多様な風評記事の一括検知技術
本技術では、性能が入力パターン数に依存せず、高速に動作するパターンマッチングアルゴリズム^(注6)を用いて、大量かつ多様な風評パターンを一括して高速に検知します。また、任意文字指定（ワイルドカード）や文字間隔指定など、従来は高速な検知が困難であった複雑なパターンも、性能を落とさず高速に検知できます。これにより、企業や製品の風評記事を、漏れなく高速に検知することができます。

図1 風評検知技術

効果

実証実験では、10万件もの大量の風評パターンに対して、Web記事1件あたり0.1ミリ秒未満のリアルタイムで検知（Intel^®Xeon^® 3.8ギガヘルツ機使用時）できることを確認しました。また、風評パターン数を1件から10万件に増やした場合の性能劣化は0.2%未満であり、検知時間は風評パターン数に依存せず一定であることを確認しました。

本技術により、企業が検知したい大量かつ多様な風評記事を、リアルタイムに検知することが可能となります。また、Web上のスパムブログ発見や犯罪予告検知などへの応用も期待できます。

今後

富士通（中国）信息系統有限公司^(注7)のCGM解析サービスへの適用を今年度中に行う予定です。また、風評情報のインフルエンサー^(注8)を早期に発見する取り組みも開始します。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

注1 株式会社富士通研究所：: 代表取締役社長村野和雄、本社神奈川県川崎市。
注2 富士通研究開発中心有限公司：: 董事長吉川誠一、所在地中国北京市。略称FRDC (Fujitsu Research and Development Center Co., Ltd.)。
注3 CGM （Consumer Generated Media）分析サービス：: ブログや掲示板、SNSなど、消費者がWeb上に生成するメディア（CGM）における企業や製品などの評判を、分析・可視化するサービスの総称。
注4 インデックス生成：: テキストデータを検索するための索引構造を構築すること。データに現れる大量の単語（または短い文字列）を並べ替えるため、構築には時間がかかる。
注5 テキストストリーム：: 大量のテキストデータをそのまま並べたもの。
注6 パターンマッチングアルゴリズム：: テキストデータ中に、あるパターンが現れるかどうかを判定する計算手続き。たとえば、テキストデータD=cocoaに対して、パターンP1=coはD中に（2回）現れ、パターンP2=caはD中に現れない、といった判定を行なう。
注7 富士通（中国）信息系統有限公司：: 董事長五十嵐隆、本社中国上海市。略称FCH (Fujitsu (China) Holdings Co., Ltd.)。
注8 インフルエンサー：: 多数の人に大きな影響を与えるCGMの作成者。

本件に関するお問い合わせ

株式会社富士通研究所
ソフトウェア&ソリューション研究所ナレッジテクノロジ研究部
電話： 044-754-2652（直通）
E-mail： rumor-detection@ml.labs.fujitsu.com

プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。

ページの先頭へ

Web上の風評をリアルタイムに検知する技術を開発

開発の背景

課題

開発した技術

効果

今後

商標について

注釈

関連リンク

本件に関するお問い合わせ