PRESS RELEASE (技術)
2011年2月1日
富士通株式会社
業界初!運用中のストレージを即座にスリム化するソフトウェア技術を開発
ストレージにかかるコストを削減
当社は、運用中のブロックストレージ(注1)を対象に、データの保存と同時に、ソフトウェアのみで重複するデータを除去する技術を業界で初めて開発しました。データの重複を瞬時に発見するアルゴリズムを開発することにより、特殊なハードウェアを使わずに運用中のストレージの容量をスリム化できます。
本技術により、運用中のストレージに格納された複数の仮想マシンのOSデータを含め、さまざまなデータの重複部分を除去することが可能となり、たとえば仮想マシンのデータが10個ある場合には容量を約10分の1にスリム化できます。これにより、ストレージの有効活用やコスト低減を実現します。
本技術の一部は、独立行政法人 新エネルギー・産業技術総合開発機構(NEDO)委託の「グリーンITプロジェクト ストレージシステム向け省電力技術の開発」の成果です。
開発の背景
昨今、ストレージの有効活用やコスト低減を実現する技術として重複除去技術が注目されています。重複除去技術は、ストレージ中に存在する重複するデータを発見し除去するもので、主にバックアップデータの容量を削減する用途に広く使われています。一方、システムで処理するデータが増えるにつれ、バックアップだけではなく、運用中のストレージの容量も重複除去により削減したいという要望が高まってきています。
たとえば、昨今利用が広まっている仮想環境の場合、仮想マシン向けのOSデータや、さまざまなデータが重複してストレージに格納されています(図1)。これらのデータの中から重複データを発見して除去することができれば、仮想システムで利用するストレージを有効活用することが可能です。
図1 仮想環境でのストレージ |
課題
重複除去技術は、対象とするデータが運用中のデータであるかどうか、重複除去のタイミングがデータの保存と同時かどうか、そして、データへのアクセスがファイル単位であるかどうかで表1のように分類されます。
対象データ | 運用中のデータ (プライマリー) |
非運用中のデータ (バックアップ) |
---|---|---|
重複除去のタイミング | データの保存と同時に重複除去 (インライン) |
データをいったん保存してから重複除去 (ポストプロセス) |
データへのアクセス形態 | ストレージ中のデータをある大きさの“ブロック”に区切って、ブロック単位でアクセス (ブロックストレージ) |
ファイル単位でアクセス (ファイルシステム) |
運用中のストレージに格納されたデータの重複を除去するためには、データの保存時に重複しているかどうかの判断をする必要がありますが、従来の技術では困難でした。このため、運用中のデータを別のストレージに一時的にオフラインで格納して夜間などシステムが忙しくない時間に重複するデータを除去する方法がとられていました。
開発した技術
今回、運用中のブロックストレージを対象にデータの保存と同時にデータの重複を除去する技術を開発しました。開発した技術の特徴は以下の通りです。
- データを瞬時に検索するアルゴリズム
書き込むデータが、すでにストレージに格納されたデータと重複していないかを瞬時に判断し、新規のデータのみをストレージに書き込みます。重複したデータはストレージに記録されません。重複しているかどうかを効率的に判断する手法としてブルームフィルター(注2)がありますが、本技術ではブルームフィルターを検索にも対応させ、重複の判断とともにデータの保管場所の検索も瞬時に処理できるようにしました。この技術により、検索に必要な処理量を大幅に削減し、ソフトウェアだけでデータ保存と同時に重複除去を行うことを可能にしました(図2)。
図2 重複検索技術 - ブロックストレージ対応でさまざまなOSに対応可能
本技術は、ブロックストレージを対象としてソフトウェアのみで処理をおこない、さまざまなOSを用いる仮想環境でも利用することができます。仮想環境では、それぞれのOSが割り当てられたブロックストレージにデータを書き込みますが、本技術ではすべてのブロックストレージの中で重複するデータを除去してからデータを書き込むため、OSからは意識することなく利用できます(図3)。
図3 重複除去技術と仮想環境の関係
効果
本技術を利用することで、ストレージを有効に活用して大量のデータを格納することや、ストレージにかかるコストを低減することが可能になります。
今後
今後は、実用化に向けた開発をすすめ、データセンターでの活用など、数年以内の実用化を目指して取り組んでいきます。
以上
注釈
- 注1 ブロックストレージ:
- ハードディスクのように、ストレージ中にあるデータを、ある大きさのブロックに区切ってブロック単位でアクセスするストレージ。
- 注2 ブルームフィルター:
- データが集合の中に含まれているかどうかを判断するのに使われるデータ構造のこと。データが集合に含まれていなくても「含まれている」と誤判断する場合があるため、単独ではストレージの重複判定には使用できない。
本件に関するお問い合わせ
サービスビジネス本部 データセンターサービス推進部
電話: 044-754-2632(直通)
E-mail: dblk-press@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。