PRESS RELEASE (技術)
2013年4月1日
株式会社富士通研究所
ビッグデータのタイムリーな活用を実現する高速処理技術を開発
数分から数十分前の出来事を分析結果に反映し、価値ある情報を即座に提供可能に
株式会社富士通研究所(注1)は、ソーシャルメディアなどの増え続けるビッグデータをタイムリーに活用可能とする高速処理技術を開発しました。
近年、サーバの高性能化が進んでいますが、大量のデータをリアルタイムに分析するのは困難であり、システム全体での性能向上が課題となっていました。今回、サーバ上で動作するデータ分析ソフトウェアとデータの格納処理を行うデータ管理ソフトウェアを密接に連携し、データ分析側からの処理要求頻度に応じて一度に処理するデータ量を変化させることでシステム全体の性能を5倍以上向上させました。これにより、アクセスが急増した場合でも、すばやい分析を実行することが可能です。
本技術により、例えば電車の中の多数のユーザーに対して、位置情報に基づいた旬の情報や話題のレストラン情報などを配信できるなど、多くのユーザーが適切なサービスを利用することが可能になります。
開発の背景
近年、ソーシャルメディアでは大量のデータが発信されており、また、センサーデータや人の位置情報といった実世界の時系列データも飛躍的に増え続けています。これらのビッグデータは、ただ蓄積するだけではなく、データに対して様々な分析を行い、価値ある情報をいかにすばやく引き出すかが重要です。
ビッグデータ活用の代表例として、ソーシャルデータや商品の購入記録から次の行動を推奨するレコメンデーション分析がありますが、次々に到着する大量のメッセージに含まれるデータ間の関係性をたどる処理が必要であり、分析結果や分析途中の中間データがメモリに収まらないほど膨大になることがあります。
図1 開発の背景と開発した技術の位置づけ
課題
メモリ上に収まらない大量のデータを扱うためには、記憶装置としてハードディスクを使います。ディスクの性能を最大限に発揮するには、大きな単位で連続的にデータを記録することが有効ですが、あまり大きな単位で記録してしまうと効率が低下して処理時間が長くなります。一方、小さな単位で記録すると、高い頻度でデータが到着する場合にはディスクアクセスが多発し性能が低下してしまいます。さらに適切な読み書き単位はデータの到着頻度にも左右されるため、状況が変わると効率や性能の低下が起こるという課題がありました。
開発した技術
今回、サーバ上で動作しているデータ分析ソフトウェアとデータの格納処理を行うデータ管理ソフトウェアを密接に連携し、データ分析側からのデータ読み書きの要求頻度に応じて、一度に処理するデータ量を変化させることでシステム全体の性能を向上させる高速処理技術を開発しました。これにより、アクセスが急増した場合でも、すばやい分析を実行することが可能です。開発した技術の特長は以下の通りです(図2)。
- データのまとめ読み書き
データの読み出し時、データ管理側は、データ分析側から指定されたデータだけでなく、ディスクの物理レイアウト上の近くにある他のデータもまとめて読み出し、データ分析側は、このデータの中から必要なものを選んで使用します。また、データの書き込み時、データ分析側は不要になった複数のデータを指定してデータ管理側へ渡し、データ管理側は受けとったデータのまとまりを、ディスクの物理レイアウト上できる限り近くに配置します。
このようにディスクへの読み書きのまとまりを大きくすることで、ディスクへのアクセス回数を減らし、システム全体のスループット性能が向上します。
- まとめて読み書きするサイズの動的な変更
データ分析側で可能な限りまとめて処理するために、必要なデータよりも多めに読み出してから、利用側で選別して処理します。このとき適切なまとめ読みの大きさは状況によって変化するため、外から届くデータ量や分析の進み方を把握して、まとめて読み書きするサイズを決め、適切な性能が出るように自動で調整します。
図2 技術のポイント
本技術により、従来に比べて5倍以上のスループット向上を実現しました(図3)。これにより、数分から数十分前の出来事を分析結果に反映し、価値ある情報を即座に提供可能になります。
図3 技術の効果
効果
今回開発した技術により、例えば移動中の電車の中で多数のユーザーに対して、位置情報に基づいた旬の情報や話題のレストラン情報などを配信することが可能です。また、eコマースにおいて、クリスマス前などアクセスするユーザー数が急激に増大した場合でも、すばやい応答が可能です。このように、リアルタイム性の向上によりビッグデータ分析の応用範囲が広がり、ビジネスへの活用が期待されます。
今後
富士通研究所では、今後様々な分析アプリケーションへの適用および実証実験を進め、2014年度の実用化を目指します。
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以上
注釈
関連リンク
- ビッグデータの分単位での活用が可能に!ディスクアクセスを大幅に削減する並列データ処理技術を開発(2012年4月5日 プレスリリース)
本件に関するお問い合わせ
株式会社富士通研究所
クラウドコンピューティング研究センター
044-754-2575(直通)
aidp@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。