このページの本文へ移動
  1. ホーム >
  2. プレスリリース >
  3. オープンデータの活用革新! リンクが張られた公開データ(LOD: Linked Open Data)向け大規模データ格納・検索技術を開発

PRESS RELEASE (技術)

2013年4月3日
株式会社富士通研究所
Digital Enterprise Research Institute
Fujitsu Laboratories of Europe Limited

オープンデータの活用革新! リンクが張られた公開データ(LOD: Linked Open Data)向け
大規模データ格納・検索技術を開発

世界で初めて、LOD活用基盤を無償公開

株式会社富士通研究所(注1)、アイルランド国立大学ゴールウェイ校の研究機関Digital Enterprise Research Institute(注2)、およびFujitsu Laboratories of Europe Limited(注3)は、世界中で公開されている互いにリンクが張られたデータであるLinked Open Data(注4、以下LOD)を格納し、一括検索するLOD活用基盤を開発しました。

現在、学術・政府系を中心に多種多様なデータがLODとしてインターネット上に公開されていますが、個々のデータはそれぞれのWebサイトで公開されており、どこにどのようなデータがあるかを把握することが難しいという課題がありました。今回、数百億項目にもおよぶLODを格納し、従来比5~10倍となる高速な検索アルゴリズムにより、格納データを標準的なAPI(Application Programming Interface)で一括検索できるLOD活用基盤を開発しました。また、リンク情報を含めてデータを可視化する検索インターフェースにより、アプリケーションに必要なデータを視覚的に探索できる機能を開発しました。これにより、アプリケーション開発者が個々のWebサイトを探しまわることなく、欲しいデータを即時に入手し、利用することを可能にしました。

富士通研究所では、今回開発した技術をクラウド上に実装したLOD活用基盤を、世界に先駆けて無償公開し(2013年中に限定公開予定)、オープンデータの利活用を推進します。

オープンデータの利活用事例として、本技術および本技術を利用して開発した企業分析アプリケーションの詳細を、4月16日(火曜日)からアイルランド・ダブリンで開催される国際会議「XBRL 26」にて紹介します。

開発の背景

米国では、オープンガバメント政策の下、データ公開サイト「Data.gov」が立ち上げられ、2013年3月現在では世界30カ国もの国家政府が、専用の公開サイトにて政府が持つデータを公開しています。日本でも、2012年7月に内閣府IT戦略本部により「電子行政オープンデータ戦略」が策定され、オープンデータの法的な基盤整備や公共データの公開が順次開始されています。

データを公開するにあたり、公開するデータの形式は、特定のアプリケーションに依存せず、機械処理が容易な形式として、Webの各種標準規格団体であるW3C(注5)により「Linked Data(注6)」が推奨されています。Linked Dataでは、データがリンクを持つことができるのが特徴で、データはほかのデータとリンクすることで、自分が発見しやすくなり、また利用されやすくなります。英政府のデータ公開サイト「Data.gov.uk」でもLinked Data形式が採用されており、2013年3月現在では、Linked Data形式で公開されるデータ量が全世界で400億項目を越え、リンクが形成するデータのネットワークはLODと呼ばれています。

課題

現在、LODは、データ提供者が個別に立ち上げたWebサイトでデータを公開しています。これらのデータには、複数のアクセス手段が用意されており、多くのサイトでは、サイト内のデータを検索する機能を提供しています。しかしながら、個別に立ち上げられた検索機能では、アプリケーション開発者から見れば、(1)欲しいデータがどの公開サイトにあるか分からない、(2)複数のデータを組み合わせた処理を行うにはアプリケーション側で複雑な処理が必要、(3)検索機能のないサイトのデータは検索できない、といった課題がありました。これらの課題の解決は、アプリケーション開発者に委ねられており、LODの有効活用を阻害する要因となっていました。

開発した技術

今回、世界中で公開されているLODを収集・格納し、複数のデータを一括検索するLOD活用基盤(図1)を開発しました。このLOD活用基盤では、人が利用するための検索インターフェースのほか、アプリケーションが利用するための標準API(SPARQL:注7)を搭載しています。

図1 LOD活用基盤の概要
図1 LOD活用基盤の概要

開発した技術の特長は以下の通りです。

  1. LODのリンク構造に特化した高速分散検索技術

    データを一元的に収集した場合、リンクによって作られる巨大なデータ構造を取り扱う必要があり、単にデータ量が増加するだけでなく、複雑化するデータのリンク構造を高速に検索する技術の実現が課題となっていました。特にデータの中からリンクが張られている共通の項目を検索するような場合、膨大なデータを総当たりで照らし合わせる処理(突き合わせ処理)が必要となり、性能劣化の要因となっていました。

    今回、このような突き合わせ処理が必要となる検索処理に対し、LODに特化した分散処理とキャッシュ機構を組み合わせることにより、従来比5~10倍の高速化を実現しました。具体的には、検索条件を調整し、各スレーブサーバで部分的な突き合わせ処理(1次)を行い、マスタサーバでの突き合わせ処理(2次)の負荷を軽減することで、全体での処理時間を短縮します。また、一部のノードにリンクが集中するといったLODのリンク構造の特徴と過去の利用頻度から、突き合わせ処理時にアクセスが集中するデータのみを効率的にキャッシュするアルゴリズムにより、ディスクアクセスの回数を抑えることで高速検索を実現しました。

    図2 検索アルゴリズムの概要
    図2 検索アルゴリズムの概要

  2. LODの全体像を把握するための検索インターフェース

    アプリケーション開発者が、どこにどのようなデータがあるかを把握するための検索インターフェースです。各データの検索だけでなく、データの利用度・普及度を表す統計情報、およびデータに付与されたラインセンス情報などにより検索し、欲しいデータを絞り込むことができます。検索結果は、データ間のリンク情報を併せて可視化して表示されるため(図3)、アプリケーション開発者は必要な情報を視覚的に把握することができます。

    図3 検索インターフェースの実行例
    図3 検索インターフェースの実行例
    拡大イメージ

効果

今回開発した技術を用いることで、アプリケーション開発者は、数あるデータ公開サイトを個別に検索することなく、必要なデータを一括して入手し利用することが可能となります。また、標準APIを利用して、多種多様なデータを自由に組み合わせたアプリケーションを簡単に開発することができます。

具体例として、本技術を利用した企業分析アプリケーションを開発しました。LODとして公開されている企業の基本情報(業種・従業員数など)、各企業が公開している財務情報(売上高・利益など)、株価情報などのデータを組み合わせて、企業業績を瞬時に多角的に分析することが可能となります。

今後

富士通研究所では、今回開発した技術をクラウド上に実装したLOD活用基盤を、世界に先駆けて無償公開(2013年中に限定公開予定)することで、オープンデータの利活用を推進します。

また、富士通のデータ利活用ビジネスとも連携し、様々な分野での技術活用を進めていきます。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

注1 株式会社富士通研究所:
代表取締役社長 富田達夫、本社 神奈川県川崎市。
注2 Digital Enterprise Research Institute:
所長 ステファン・デッカー、所在地 アイルランド・ゴールウェイ。アイルランド国立大学ゴールウェイ校の研究機関。Linked Open Dataの分野では、世界有数の研究機関であり、多くの業績(発表論文、EUプロジェクトなど)を創出。2012年より、富士通研究所とLinked Dataに関する基盤技術およびアプリケーションに関する共同研究を実施中。
注3 Fujitsu Laboratories of Europe Limited:
代表取締役社長 中田恒夫、本拠地 英国ロンドン。
注4 Linked Open Data(LOD):
Linked Data形式(注6)で公開されているデータセット群。2013年現在で約340の主要なデータ公開サイトがあり、全体では400億項目のデータ量がある。代表的なものには、オンライン百科事典であるWikipediaをLinked Data形式に変換したDBpediaがある。
注5 W3C:
World Wide Web Consortium。Webに関連する様々な技術や規格の標準化団体。Webの産みの親であるティム・バーナーズ・リーが所長を務める。
注6 Linked Data:
W3Cが推奨するWeb上での新しいデータ公開形式。RDF(Resource Description Framework)と呼ばれる機械処理が容易で特定アプリに依存しないデータ表現形式が用いられる。
注7 SPARQL:
W3Cで制定されたRDF用の問い合わせ言語。Linked Dataの検索にも用いられる。

関連リンク

本件に関するお問い合わせ

株式会社富士通研究所
ソフトウェアシステム研究所 インテリジェントテクノロジ研究部
電話 044-754-2652(直通)
メール lod@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。