このページの本文へ移動
  1. ホーム >
  2. プレスリリース >
  3. 業界初!クラウドコンピューティング時代に向けた障害対処技術を開発
  • English

PRESS RELEASE (技術)

2010年2月23日
株式会社富士通研究所

業界初!クラウドコンピューティング時代に向けた障害対処技術を開発

自動で障害の検知から解決までを実行し、サービスが止まらない高信頼なシステムを提供

株式会社富士通研究所(注1)(以下、富士通研究所)は、本格的な「クラウドコンピューティング時代」に向けて、富士通がこれまで提唱をおこなってきたクラウドサービス基盤「Trusted-Service Platform」を実現するための技術を研究開発しています。

このたび、クラウドシステムからの情報分析力と情報収集力を向上させることにより、クラウドシステムの障害予兆の検知から障害原因の絞込み、さらに障害解決までの一連の処理を自動で実行する技術を他社に先駆けて開発しました。

クラウドシステムは、さまざまな社会基盤を支えており、24時間365日安定したサービスを提供し続けなくてはならないため、万が一障害が発生した場合でもサービスを止めることはできません。本技術により、クラウドシステムで障害が起こる前に対応することが可能になります。さらに、障害の解決まで自動的に行うことにより、運用管理者の負担が軽減できるほか、利用者が安心して使えるクラウドシステムの提供を実現できます。

開発の背景

クラウドコンピューティングとは、クラウドイコール雲(インターネット)の向こう側に存在する、サーバやストレージをはじめ、ネットワーク、ミドルウェア、業務アプリケーションなどを、ネットワーク経由でサービスとして利用する形態のことです。ユーザーは、必要な機能を必要なときに必要なだけ使うことができます。

クラウドコンピューティングは、仕事を効率的かつ生産的に進めるための基盤のみならず、娯楽や生活上必要となる社会インフラなど、さまざまな社会基盤を支えるシステムとして利用されています。人を中心とした情報通信技術(ICT)の利用形態である、ヒューマン・セントリックな社会を支えるために、クラウドシステムは24時間365日、安全かつ安定したサービスを提供し続けることが求められます。

これまでは、システムで障害が発生した場合、発生の直後からその対処を行なっていましたが、基盤を支えているクラウドシステムは止めることが許されないため、同様な対応では対処できません。また、これまでの社会システムでは、高コストな冗長構成などでサービスの連続運用を行ってきましたが、経済的な運用を目指すクラウドシステムにおいて高い信頼性や安定性を持たせるためには、障害が顕在化する前に予兆を捉え、障害が起こる前に解決するなどの新しい技術が期待されています。

課題

クラウドシステムには、次のような特徴があります。

  1. 「大規模」:個別に稼動している既存システムを、データセンターや企業内情報システムに集約するため、システムの規模が大きくなります。
  2. 「複雑」:仮想化技術を活用し、多数のサービスが同一物理サーバ上で動作することができるため、システム構成や依存関係が複雑になります。

上記のような特徴を持つため、ひとたび障害が発生すると、その影響が広範囲に波及するとともに、どこに障害があるのかを調べるのに多くの工数と時間がかかってしまいます。

開発した技術

今回、クラウドシステムで高信頼かつ安定した品質のサービスを提供するために、障害が顕在化する前に検知して、事前に回避を行なう技術を開発しました。具体的には、システムの監視・障害予兆の検知・障害原因の絞り込み・障害解決を迅速に行なう技術です。


図1. 従来の障害発生時の様子と今回の障害検知・対処の様子
  1. 障害予兆の検知

    障害の種類によって2つの技術を開発し、予兆を検知することを実現しました。

    1. システムメッセージの分析による障害の予知

      障害時には直前に出力されるメッセージに特定のパターンがあることに注目し、障害の予兆を検知します。発生したメッセージと過去に発生した障害時のメッセージのパターンを比較することで、障害の予兆が発生しているかどうかを判断します。過去に発生したメッセージパターンはベイズ学習(注2)により事例ごとに重みづけを行うことにより、障害の予兆が発生しているかどうかを高い精度で検知します。


      図2. システムメッセージの分析による障害の予知
    2. メッセージが出力されない潜在障害の予知

      サーバなどの機器を設定する場合に、人間のミスで誤った設定をしてしまうことがあります。このような場合、サーバ自身は設定どおりに動作して、メッセージを出力することはありません。そこで、サーバとシステムをつなぐネットワーク上を流れる通信パケットを収集・分析し、ロスや再送、遅延時間など、通信パケットレベルでの微細な変化を分析することにより、障害を検出する手法が有効になります。今回、クラウドのような大規模システムを監視するために、10Gbps(ギガビット毎秒)の高速通信に対応させ、ネットワークやサーバシステムの障害をリアルタイムで検出する技術を開発しました。

  2. 障害原因の絞込み

    検出された障害予兆に対して、予兆を発生させている最も疑わしい箇所を推定します。観測された症状を起点として、ネットワークやシステムの構成情報を使って症状の原因へと遡って行き、複数の起点から遡った結果を重ね合わせ、最も重なりの大きい箇所や正常動作が確認できない箇所が疑わしいと推定します。

  3. 障害原因の解決

    絞り込まれた障害原因に対して、障害対処履歴などの過去のノウハウを活用し、運用管理者に適切な対処方法を提示します。障害は、過去に発生したものが再発している場合が多いため、過去の障害事例とその対処履歴を再利用できるように形式化し、ノウハウとして蓄積しておくことで、障害原因を解決するための対処方法を即座に提示することができます。

効果

本技術により、クラウドシステムでの迅速な障害対処が可能になり、高信頼かつ継続的な運用が可能なクラウドシステムをお客様に提供することができます。

本技術を適用した当社の社内システムにおいて、障害が実際に発生する前に誤設定を検出することができました。また、障害解決の際にも、従来平均で15分かかっていた障害対処を1分程度で対応することが可能になりました。

今後の予定

今回開発した技術は、当社の“オンデマンド仮想システムサービス”や“LCM監視サービス”への適用を順次進めていきます。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

  注1 株式会社富士通研究所:
代表取締役社長 村野和雄、本社 神奈川県川崎市。
  注2 ベイズ学習:
証拠に基づいて、その原因となった事象を推定するための確率論的方法。本技術について、富士通研究所での適用では、障害事例を10回学習させることで障害発生の事前検知率96.2%を得ている。

関連リンク

本件に関するお問い合わせ

株式会社富士通研究所
クラウドコンピューティング研究センター
電話: 044-754-2575(直通)
E-mail: cloud-mate@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。