PRESS RELEASE (技術)
2014年6月5日
株式会社富士通研究所
障害に強い広域SDNを実現する、クラスタ型分散コントローラー技術を開発
ネットワークを止めることなく、大規模ネットワーク運用を実現
株式会社富士通研究所(注1)(以下、富士通研究所)は、広域SDN(Software Defined Networking)を実現する、大規模ネットワークに対応可能なクラスタ型分散コントローラーにおいて、コントローラーの障害や負荷変動に自動的に対応できる技術を開発しました。
クラスタ型分散コントローラーは、複数のコントローラーを論理的に1台のコントローラーとして動作しながら複数のネットワークスイッチを制御するため、従来の集中型コントローラーと比較して大規模化に対応しやすく耐障害性が高いという特長がある一方で、急激な負荷変動やコントローラー障害時の連携制御が困難という課題がありました。
今回、複数のコントローラーを連携制御する分散コントローラー対応モジュールを開発し、コントローラーの負荷増大や障害が発生した際に、コントローラーが管理するスイッチを別のコントローラーに数秒で切り替えるロードバランス技術、および無停止リカバリー技術を開発しました。本技術により、設計時の想定よりトラフィックが増加した場合や、複数のコントローラーに障害が発生した場合でも安定したSDN運用が可能になります。
開発した技術を用いることで、広域ネットワークにSDNを導入する際に、ネットワークを安定的に運用しながら、災害などで生じたネットワーク障害から迅速に復旧できるインフラを提供することが可能になります。
本技術は、6月11日(水曜日)から幕張メッセ(千葉県幕張市)で開催される「Interop Tokyo 2014」に出展します。
開発の背景
OpenFlow(注2)に代表される従来のSDNではネットワークコントローラーは集中制御型の構成を取っているため、大量の通信パケットを転送するスイッチで構成される広域ネットワークを新たにSDNとして運用する場合、ユーザー数の増大に伴いコントローラーに負荷が集中しスムーズなサービス提供ができなくなります。また、コントローラー自体が障害を起こすと管理しているスイッチが制御できなくなるという問題がありました。
そこで、富士通研究所では複数台のコントローラーを論理的に1台のコントローラーとして動作させ、千台規模のスイッチを集中制御する、クラスタ型分散コントローラー技術の研究開発に取り組んできました(図1、図2)。
この技術は、コントローラー・アプリケーションを追加するための制御アプリケーション用モジュールと、OpenFlowコントローラーを部品として接続する分散コントローラー対応モジュールにより、負荷に応じてアプリケーションやコントローラー部品をサーバリソースとともに追加できるようにするものです。
図1 コントローラーの各種配備形態
図2 クラスタ型分散コントローラーの詳細
課題
クラスタ型分散コントローラーでは、集中型のコントローラーと異なり、複数の分散コントローラー対応モジュールが連携して競合することなく動作する必要があります。また、どのモジュールが障害となっても処理を継続する必要があるため、一部のコントローラー部品に負荷の集中や障害が発生した時の対処を自動実行することが難しく、該当するコントローラーが管理しているスイッチ群の処理が遅くなることや、制御が継続できなくなることが課題でした。
開発した技術
今回、クラスタ型分散コントローラーで、制御負荷を自動的に分散させるロードバランス技術と、障害時に自動的にコントローラーを切り替える無停止でのリカバリー技術を開発しました。
開発した技術の特長は以下のとおりです。
- ロードバランス技術
分散コントローラー対応モジュールに新たに負荷チェック機能を開発しました(図3)。これにより、コントローラー部品それぞれの負荷情報(CPU使用率、スイッチ台数など)を収集でき(図3の1)、コーディネーション・システムが、例えばモジュールの管理番号などからリーダとして選出した1つの分散コントローラー対応モジュールで定期的に負荷情報をチェックすることで(図3の2)、負荷の偏りを検出します。ロードバランス要否判定ロジックで必要と判定された場合、変更対象スイッチ決定ロジックで変更するスイッチを決定し、CPU使用率やスイッチ台数といったポリシーに応じてロードバランス方法を決定します(図3の3)。その結果、変更したスイッチとコントローラー部品の対応関係をコーディネーション・システムに登録し(図3の4)、分散コントローラー対応モジュールが更新された情報にしたがいスイッチを付け替えることで、ロードバランスを行います(図3の5)。
図3 ロードバランス技術の概要 - 無停止でのリカバリー技術
分散コントローラー対応モジュールに新たに障害チェック機能を開発しました(図4)。リーダとして選出された分散コントローラー対応モジュールが、コントローラー部品の障害を検出し(図4の1、2)、障害を起こしたコントローラーに接続されたスイッチを管理する新たなコントローラー部品を決定します(図4の3)。CPU使用率やスイッチ台数などのコントローラー部品負荷情報に基づき自動的に負荷分散されるようにコントローラー・スイッチ対応情報を更新(図4の4)、障害の発生していない分散コントローラー対応モジュールが情報更新と連動して動作することによりスイッチを管理するコントローラーを切り替え(図4の5)、サービスを停止することなく継続運用することが可能です。切替え先のコントローラーを、ロードバランス技術を用いて決定することで、コントローラー部品の負荷が極端に上昇し処理が止まってしまうといった問題が発生しないようにしています。
さらに、リーダモジュール自身が障害になった場合でも、コーディネーション・システムがセションの切断を検知し、新たなリーダを選出し、新しいリーダモジュールがスイッチを管理するコントローラーの決定を再実施します。
図4 無停止でのリカバリー技術の概要
効果
今回開発した技術をクラスタ型分散コントローラーに適用することで、急激な負荷変動にも対応でき、コントローラー障害時にもネットワークサービスを停止することなく継続することが可能なため、広域ネットワークの安定的かつ高信頼な運用を実現します。
例えば、従来のコントローラーで、10のドメインのネットワークを障害によって停止することなく、主系と待機系を用意するホットスタンバイ方式で運用する場合、10ドメイン分で各2台、合計20台のコントローラーが必要であるのに対し、クラスタ型分散コントローラーの場合は通常運用の10台に1台の待機系を加え、合計11台のコントローラーを準備すれば良いため、コントローラー数を半減できます。
今後
本技術により、通信事業者のネットワークなどインフラ・ネットワークにおいて、高信頼かつ安定的なネットワーク運用が可能となり、導入コストおよび運用コストの削減が期待されます。
富士通研究所は、クラスタ型分散コントローラー向けの管理制御技術の研究開発を進め、2015年度中の実用化を目指します。
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以上
注釈
本件に関するお問い合わせ
株式会社富士通研究所
ネットワークシステム研究所 ネットワーク方式研究部
044-754-2765(直通)
cludic@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。