このページの本文へ移動
  1. ホーム >
  2. プレスリリース >
  3. 世界中で公開されているオープンデータへのリンクを自動的に付与する技術を開発

PRESS RELEASE (技術)

2014年1月16日
株式会社富士通研究所
富士通研究開発中心有限公司
Fujitsu Laboratories of Europe Limited

世界中で公開されているオープンデータへのリンクを自動的に付与する技術を開発

LOD(Linked Open Data)へリンクを付与し、データの利活用を推進

株式会社富士通研究所(注1)、富士通研究開発中心有限公司(注2)、Fujitsu Laboratories of Europe Limited(注3)は、国や企業が所有するデータと、世界中で公開されているLinked Open Data(注4、以下LOD)との間で、同じ対象を表現するデータを発見し、リンクを自動的に付与する技術を開発しました。

現在、インターネット上にデータを公開する仕組みとしてLODが広がり始めています。LODの個々のデータは、異なるWebサイトで公開されているデータにリンクを付けることが推奨されており、データ利用者はこのリンクを辿ることで複数のWebサイトを横断して目的のデータを利用することができます。しかし、ほかのWebサイトのデータにリンクを付けるためには、公開されているデータの内容を理解し、関連するデータを発見する必要があり、LODの仕組みでデータを公開する際の課題となっていました。

本技術により、表記やデータ構造の類似性から同一となる対象を推定し、リンクを付けることが可能となります。例えば、国が所有するデータをLODとして公開したり、企業が所有するデータを世界中のLODと組み合わせて利用したりでき、オープンデータの利用価値を高めることが期待できます。

富士通研究所では、本技術と連携可能なLODの検索サービス(http://lod4all.net/)を、2014年1月中(予定)に一般公開し、運営します。

開発の背景

2013年6月のG8サミットにおいて、「オープンデータ憲章」が合意されるなど、オープンデータへの注目が急速に高まっています。日本においても、2012年7月に内閣府IT戦略本部により「電子行政オープンデータ戦略」が策定され、さらに2013年6月に閣議決定された「世界最先端IT国家創造宣言」において、「公共データの民間開放(オープンデータ)」が3本柱のひとつに挙げられています。

富士通研究所では、アイルランド研究機関であるThe INSIGHT Centre for Data Analytics(旧名称:Digital Enterprise Research Institute)と共同で、世界中で公開されているLODを収集し、一括検索するLOD活用基盤(注5)を開発しました。

課題

LODでは、異なるWebサイトで公開されているデータに対しても、関連するデータであるならば、リンクを付けることが推奨されています。これにより、データ利用者は複数のWebサイトを横断して、目的のデータを利用することができます。しかし、ほかのWebサイトで公開されているデータは、同じ対象を表していてもデータ構造が異なっていたり、異なる表記で書かれていたりするため、単にキーワードの一致を調べるだけでは解決できない課題がありました。そのため、データ作成者は、あらかじめリンク先のデータを調べて、そのデータ構造や表記を理解し、作成したデータと突き合わせる必要がありました。

また、従来は複数のデータ公開サイトを横断して関連データを発見する手段がなかったため、データ作成者があらかじめ知っているデータのみリンクを付けており、Web上に点在する数々のデータに対してリンクを付与することは困難でした。

開発した技術

今回、LOD活用基盤をベースに、表記やデータ構造の類似性からリンクを付与する技術を開発しました。複数のデータの中から同一となる対象を自動で発見することが可能になります。開発した技術の特長は以下の通りです。

  1. データ中の人物、組織、場所などの対象に対し、LODの中から同一であるデータを推定する技術
    以下の開発機能を組み合わせて推定します。
    • 異なるデータ構造の解決:表記の類似度を利用してデータ構造の類似度を測定します(まる1
    • 異表記の解決:LOD内のデータ構造を利用して同じ対象の異なる表記を収集します(まる2
    • 曖昧性の解決:データ構造および表記の類似性をパラメーター化し、機械学習手法を用いて同一性を判定します(まる3

    図1 開発したアルゴリズムの概要
    図1 開発したアルゴリズムの概要

    本技術は、中国や米国の学術会議が主催した評価コンテストにおいて、第一位の推定精度を達成しました(注6)。

  2. LOD活用基盤との連携
    世界中で公開されているLODを収集して一括検索するLOD活用基盤と連携することで、世界中のLODの中から同じ対象を表すデータを発見することができます。例えば、英語版のデータセットだけでなく、各国語版のデータセットに対しても、同時にリンクを付与することが可能となります。

効果

今回開発した技術を用いることで、世界中で公開されているLODの中から同じ対象を表すデータを発見し、リンクを付与することが可能になります。例えば、国が所有するデータをLODとして公開したり、企業が所有するデータをLODと組み合わせて利用したりすることが簡単に実現できます。

富士通研究所では、本技術と連携可能なLODの検索サービス(http://lod4all.net/)を、2014年1月中(予定)に一般公開します。この検索サービスはLOD活用基盤による視覚的かつ対話的な検索インターフェースが利用できます。世界中で公開されているLODの中から、ライセンスやダウンロード条件(注7)に適合したデータセットに対し、概要を検索したり、データの中身を参照したりできます。

図2 検索インターフェースの表示例
図2 検索インターフェースの表示例
拡大イメージ

今後

今回開発した世界中で公開されているLODへリンクを付与する技術は、官公庁や自治体におけるオープンデータの各種実証実験に適用して技術検証を進め、2015年度中の実用化を目指します。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

注1 株式会社富士通研究所:
代表取締役社長 富田達夫、本社 神奈川県川崎市。
注2 富士通研究開発中心有限公司:
董事長 佐々木繁、本拠地 中国北京。
注3 Fujitsu Laboratories of Europe Limited:
代表取締役社長 中田恒夫、本拠地 英国ロンドン。
注4 Linked Open Data(LOD):
Web上での新しいデータ公開形式であるLinked Data形式で公開されているデータセット群。Web関連技術の標準化団体W3C(World Wide Web Consortium)が推奨しており、機械処理が容易で特定のアプリケーションに依存しないRDF(Resource Description Framework)と呼ばれるデータ表現形式を使用。
注5 LOD活用基盤:
大規模なLODを格納し、高速に一括検索が可能な技術。
オープンデータの活用革新! リンクが張られた公開データ(LOD: Linked Open Data)向け大規模データ格納・検索技術を開発」(2013年4月3日 プレスリリース)。
注6 中国や米国の学術会議が主催した評価コンテストにおいて、第一位の推定精度を達成:
中国計算機学会が主催したNLP&CC2013における中国語マイクロブログの実体推定に関する評価課題と、アメリカ国立標準技術研究所が主催したText Analysis Conference Knowledge Base Population 2013におけるCross-Lingual Entity Linkingに関する評価課題において、 第一位の精度を達成。
注7 ライセンスやダウンロード条件:
今回公開する検索サービスでは、データの2次利用を可能とする代表的なライセンスが付与されており、かつ、データがWeb経由でダウンロード可能なデータ集合が検索対象。

本件に関するお問い合わせ

株式会社富士通研究所
ソーシャルイノベーション研究所 ナレッジプラットフォーム研究部
電話 044-754-2652(直通)
メール lod@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。