PRESS RELEASE (技術)
2020年3月3日
株式会社富士通研究所
大量データアーカイブを実現する磁気テープストレージのアクセス高速化技術を開発
従来比4.1倍の読み出し性能を実現し、磁気テープストレージの利用用途を拡大
株式会社富士通研究所(注1)(以下、富士通研究所)は、低コストで大容量なストレージとして再注目されている磁気テープストレージのアクセス高速化技術を開発しました。
従来、磁気テープストレージは、バックアップ用途としての利用が中心でしたが、その大容量性と低コスト性に加えて、近年の転送速度の高速化や、磁気テープ内のデータをファイル単位で取り扱うことができるテープ向けファイルシステムLTFS (Linear Tape File System)の普及により、アーカイブ用途での活用が期待されています。しかし、磁気テープストレージは、テープ上の連続した領域を順に読み書きするアクセス性能は高いものの、不連続な位置にランダムにアクセスする性能は低く、大量データのアーカイブ用途として利用するためには、ランダムアクセスの性能向上が求められています。
今回、LTFSの機能を拡張し、複数のテープカートリッジを仮想統合するファイルシステムを新たに開発し、テープ特性に合わせたデータ管理やアクセス順序制御により、テープからのランダム読み出し性能を向上させ、従来方式と比較して4.1倍の高速化を実現しました。
これにより、今後、爆発的に増加する大量データのアーカイブ用途として磁気テープストレージの活用を促進し、性能コスト比に優れたデータアーカイブ基盤を実現していくことで企業のデジタルトランスフォーメーションを支援します。
本技術の詳細は、3月2日(月曜日)から3月4日(水曜日)まで開催される「第12回データ工学と情報マネジメントに関するフォーラム(DEIM2020)」にて発表します。
開発の背景
従来、磁気テープストレージは、主にデータ保護を目的として原本データを一時的に複製し保存するバックアップ用途として多く用いられ、原本データが破損・紛失するような有事にのみ、バックアップしたデータ一式をまとめて復元するという形で利用されてきました。アーカイブは、バックアップと異なり、原本データ自体をテープ上で半永久または長期に保管し利用することを目的とするため、必要な時に必要なデータ単位でアクセスする形で利用されます。
昨今、企業のデジタルトランスフォーメーションの進展により、様々な現場で発生する大量データの利活用が本格化し、今後、さらなるデータ増加が見込まれる中、大量データの効率的なアーカイブ需要に対応するためのストレージとして、低コストで大容量な磁気テープストレージが再注目されています。
課題
磁気テープの特長として、連続した領域を端から順に読み書きするアクセス性能が、最新磁気テープ規格のLTO8でハードディスク(以下、HDD)の3倍となる360MB/s(メガバイト毎秒)と高速である一方、不連続な位置にランダムにアクセスする性能が、数MB単位の読み出しにおいて連続読み出しの10分の1以下と非常に低速になってしまうといった問題があります。また、アクセスするデータのサイズが小さくなるほど、データを読み出す位置合わせの処理が多くなり性能が劣化していきます。磁気テープストレージをバックアップ用途で利用する場合は、まとまった単位での連続アクセスとなるため問題はありませんが、アーカイブ用途で利用する場合は、必要なタイミングに必要なデータ単位でアクセスするため、様々なサイズの読み書き性能や、ランダムな読み出し性能の向上が課題となっています。
開発した技術
一般的に磁気テープストレージで大量データを管理するには、複数のテープカートリッジを用い、HDDやUSBメモリなどのデータと同じようにファイル単位で取り扱うことができるLTFS上で、テープカートリッジ毎に異なるディレクトリ配下にデータを保持します。
今回、LTFSの上位に、複数のテープカートリッジを仮想統合するファイルシステムを新たに開発しました。この仮想統合ファイルシステムが複数のテープカートリッジを一つに仮想的に統合することで、利用者はそれぞれのテープカートリッジを意識することなく、必要なファイルにアクセスすることが可能となります。さらに、本ファイルシステムに以下の開発した技術を適用することで、磁気テープアクセス性能の高速化を実現しました。
図1 開発したシステムの構成イメージ
開発した技術の特長は以下のとおりです。
- 物理位置を考慮したアクセス順序制御
磁気テープ上でデータは長さ方向にラップという単位で分割され、各ラップでは折り返して追記的に書き込まれていきます。そのため、論理アドレスと、物理アドレスとの距離が大きく異なることになります。そこで仮想統合ファイルシステムにおいて、複数のランダム読み出し要求を受け入れたうえで、論理アドレスではなく、テープ上の物理位置が近いものから順に処理をしていきます。
磁気テープへの書き込み時は、書き込みとエラー確認を並行して実行しており、エラーが発生すると書き込みが終わった位置の後ろに自動的にエラーが起こった部分のみ再書き込みされます。従って、再書き込みが終了した物理位置をファイルのサイズの変化から予測することは困難です。そこで、ファイル書き込み後のヘッド位置を定期的に計測することで、各ファイルの物理位置を推定します。
また、磁気テープへのアクセス時は、開始位置にヘッドを合わせる処理に時間を要します。そこで、同一ラップ上で近接している2つの読み出し要求は、飛び飛びに2つのファイルを読み出すのではなく、間に含まれるファイル群もまとめて読み出したうえで不要なファイルを廃棄することで、さらなる高速化を実現します。
図2 書き込みエラー時の再書き込みのイメージ
図3 物理位置を考慮したアクセス順序制御のイメージ - 複数ファイル集約機能
LTFSでは、各ファイルのインデックスを磁気テープ上で保持しており、ファイル数の増加に伴い、その影響が指数的に増大します。アーカイブ用途で磁気テープを使う場合、利用者は様々なサイズのファイルを使用しますが、小さいサイズのファイルを大量に書き込むと読み出し性能が大幅に劣化します。
そこで、指定したサイズ以下の小さいファイルについては、LTFS上でまとめて大きなファイルとして保持し、利用者は場所を意識することなく小さいファイルにアクセスすることを可能とする仕組みを開発しました。さらに、利用者向けファイルのメタデータを仮想統合ファイルシステムで管理することで、ファイル読み出し以外の一覧表示や拡張属性の追加、ファイル削除などを、磁気テープへのアクセスなしで高速に処理することが可能です。
図4 複数ファイル集約機能のイメージ
効果
本磁気テープアクセス高速化技術を用いて、オープンソースの分散ストレージソフトウェアであるCeph(セフ)(注2)を利用してHDDと磁気テープの階層ストレージを構築しアクセス性能の評価を行いました。その結果、磁気テープ上に蓄積した50,000個の100MBのファイルからランダムに100ファイルを読み出す時間が、従来方式では5,400秒要していたところ、新技術を用いることで従来比4.1倍となる1,300秒での読み出しを確認しました。また、HDD上にある256個の1MBのファイルを磁気テープ上に移動させるのに、従来方式では2.5秒要していたところ、新技術を用いることで従来比1.9倍となる1.3秒でのファイル移動を確認しました。
本技術により、アーカイブ用途で発生するランダム読み出しや多様なサイズの書き込みといった磁気テープアクセス性能の高速化が可能となり、大量データを長期に渡ってアーカイブする際に、価格対性能比に優れたデータアーカイブ基盤の実現が期待できます。
今後
富士通研究所では、本技術の業務適用を想定した検証を進め、2022年度中に富士通株式会社での製品化を予定しています。
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以上
注釈
- 注1 株式会社富士通研究所:
- 本社 神奈川県川崎市、代表取締役社長 原裕貴。
- 注2 Ceph:
- 2004年以前にカリフォルニア大学で開発が始まったCephコミュニティーが管理しているオープンソースの分散ストレージソフトウェア。
本件に関するお問い合わせ
株式会社富士通研究所
プラットフォーム革新プロジェクト
044-754-2632(直通)
data-archive@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。