PRESS RELEASE (技術)
2017年9月15日
株式会社富士通研究所
データ分析を加速するデータ準備作業の自動化技術を開発
株式会社富士通研究所(注1)(以下、富士通研究所)は、様々な目的で作成されたデータを集めて利活用する際に必要となるデータの表現形式などを整形して統合するデータ準備作業を自動化する技術を開発しました。
企業やソーシャルメディアなどに散在する形式も粒度も異なるデータを活用可能な形に整形・統合するには、それぞれのデータの中身を十分に把握した上で行う必要があり、場合により数週間から数カ月といった膨大な時間がかかります。そのため、これまでは貴重なデータ資源の多くは手つかずのまま活用されないといった課題がありました。
今回、富士通研究所は、複数のデータを連携して分析する際、最終的に得たいデータ統合結果の例を定義することで、データ整形・統合処理を自動的に行う技術を開発しました。
本技術を、過去に行われた約8,000件のPOS購買データからマーケティング分析するデータセットに適用した結果、今まで5日かかっていたデータ準備作業が約半日で完了し、データ分析のための準備期間が短縮できることを確認しました。本技術により、企業間のデータ相互活用やデータ流通を促進し、データ分析を加速することで新たな知見をもとにした、企業の新ビジネス創出に貢献します。
開発の背景
近年、POSデータとソーシャルメディアデータなどを組合せたマーケティング分析や、地域病院から集めた電子カルテを分析した創薬研究など、様々なデータを統合し利活用した新規ビジネス創出や新製品開発がますます重要になってきています。富士通研究所では、必要な様々なデータ処理技術をデータ流通・利活用の視点で体系化し「Data Bazaar(データ バザール)」と呼んで研究を進めています(図1)。このData Bazaarは、散在する様々なデータを効率的につながる形に整形・統合・分析し、抽出した価値を安心かつタイムリーに利用者に届けることで新ビジネス創出の機会へつなげるための、包括的なデータ処理基盤技術群から構成されます。今回、この構成要素の一つとして、データをつながる形に自動的に整形・統合する技術を開発しました。
例えば、この技術を用いて自社のPOSデータと天気情報などを連携して分析することで、自社データの分析だけでは気づくことが難しかった知見が得られるなど、販売戦略立案や新商品開発に活用することができます。
図1 Data Bazaar によるデータ利活用
課題
従来データ活用をする際の準備作業では、目的とするデータを得るために、素材となるデータに対してどんな変換を行って統合していくかを十分に把握して、一つ一つ繋ぎ合わせてデータを作成していく必要があり、高いスキルを持つ人が多くの時間をかけて行っていました。また、統合作業中には、不足しているデータセットを追加する必要が生じたり、変換プログラムに考慮不足があり、目的の加工後のデータが得られないなどといったことがあり、そのたびに改善方法を模索して繰り返す必要があります。このようなデータ準備作業は、データの理解、データ整形・統合、統合されたデータの検証といった作業を繰り返すため、データ準備から分析までの全工程の8割程度を占めると言われています。
データ整形・統合を効率化するために、目的の変換結果の例をもとにデータ変換を自動的に行う技術開発への取り組みがありますが、そのためには、業務で想定される表記統一や形式統一、単位変換など様々な変換処理を試行しながら、また、不足しているデータセットを結合して補いつつ、目的とするデータ統合結果を実現できる組合せを網羅的に探索する必要があります。この整形処理が複雑になると、業務に必要な変換処理や不足しているデータセットが増大するので、探索しなければならない組合せの数が膨大になり、現実的な時間で処理を終えることが困難でした。
開発した技術
今回、データ整形・統合処理を自動的に行うため、この処理の組合せの探索を効率化することで、変換処理数や不足データセットが増えて組合せの数が増大しても、高速に処理を完了することができる技術を開発しました。
本技術の特長は以下の通りです。
- 変換処理の履歴から必要な処理を予測する探索効率化技術
本技術では、加工前のデータから出発して、データベース上の列(カラム)に対して、表記統一や形式統一、単位変換、不足データ結合などの様々な変換処理を適用した中間結果をそれぞれ算出し、中間結果と加工後のデータとの類似度を算出します。次に、類似度の高い中間結果を元に、さらに変換処理を適用して次の中間結果を算出し、類似度計算するという処理を繰り返しながら効率的に目的の加工後データに近づけます。
今回、中間結果に対して適用する変換処理について、これまでの変換処理と変換結果の履歴を保持して、加工後のデータに類似するデータを生成する変換処理を予測することにより、無駄な変換処理を削減する技術を開発しました(図2)。
本技術により、単に加工後データを元に探索する場合と比較して、探索時間が数十分の一に短縮することを確認しました。
図2 組合せ探索効率化技術 - 不足しているデータを効率よく探索する、類似データ高速絞込み技術
目的の加工データを得るために不足しているデータセットがある場合、人手では背景知識をもとに適切なデータセットを効率よく探すことができますが、これを自動化する場合、ライブラリとして用意するなどした補助データセットの中から総当たりで調べることが必要となるため、処理時間が膨大になります。
今回、ライブラリとして用意しておく補助データの列ごとに、列に含まれる値の分布の特徴をメタデータとしてあらかじめ算出しておき、中間データから算出した特徴と類似度を算出することで、不足データを高速に絞り込む技術を開発しました(図3)。
図3 類似データ高速絞込み技術
効果
今回、本技術を、過去に行われた約8,000件のPOS購買データからマーケティング分析するデータセットに適用し、今まで5日かかっていたデータ準備作業が約半日で完了し、データ分析のための準備期間が短縮できることを確認しました。
本技術により、企業間のデータ相互活用やデータ流通を促進し、データ分析を加速することで新たな知見をもとにした、企業の新ビジネス創出に貢献します。
今後
今後、本技術の実証実験を重ねながら、変換処理の種別の拡充や、補助データとしてオープンデータに対応するなどの機能拡張を進め、Data Bazaar技術を構成する機能として2018年度の実用化を目指します。
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以上
注釈
本件に関するお問い合わせ
株式会社富士通研究所
ソフトウエア研究所
044-754-2575(直通)
db-press2017@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。