低遅延相互結合網のためのスケーラブルなルーティング手法

河野 隆太

キーワード: 相互結合網, デッドロックフリー・ルーティング, 高性能計算


[背景]スーパーコンピュータ向けの低遅延ネットワークの需要増加

大規模な科学技術計算の問題の解決には,高性能なスーパーコンピュータの構築が不可欠である.スーパーコンピュータは小さなマシンの集まりであり,その数は今後10万台以上にもなるといわれる.これらがネットワークで繋がることにより,大規模な並列計算の問題を解くことが可能となる.個々のマシンがどれほど高スペックであっても,それらを繋ぐネットワークが遅い場合,全体としてスーパーコンピュータの性能は大きく低下する.さらに,無数のマシンをつなぐ,数千キロメートル以上にもなるケーブルが,実装面やコスト面から問題となっている.

このような問題に対する解決策として,マシン間を不規則に繋ぐ【ランダムネットワーク】が,高性能計算機向けのネットワークとして提案されている.一見使いにくいように見えるこのランダムネットワークは,マシン間を規則的に接続した従来型のネットワークに比べ,通信遅延を大幅に削減できるという興味深い性質を持つ.さらに,このランダムネットワークは,ケーブルの長さを一定以下に制限しても,その低遅延性を維持するという驚くべき特性がある.すなわち,ケーブル長を制限したランダムネットワークをスーパーコンピュータのマシン間に用いることで,低遅延性とケーブル長の削減を両立し,全体性能を向上できることが分かっている.

[問題]低遅延なランダムネットワークの実用化に向けた拡張性向上

本研究では,このような低遅延かつケーブル長の小さいランダムネットワークを研究対象とし,スーパーコンピュータ向けに実用化させるための課題解決に取り組んだ.大きく分けて,(1)コンパクトで速いパケット・ルーティングの手法と,(2)実装コストが小さく,アルゴリズム計算量の小さい通信の混雑制御手法,の2点について,対応する解決策を以下の通り開発した.

[貢献]ルーティングによる低遅延性と拡張性の両立

(1)通常,ランダムネットワークでは,各マシンがすべての宛先マシンについてのルーティング情報(経路の情報)を持つ必要がある.このルーティング情報の肥大化が,巨大なランダムネットワークを実現する上での課題となっている.提案手法では,ケーブルの長さを制限したランダムネットワークに対して,各マシンが近傍の一部マシンへのルーティング情報のみを持つこととした.このようにコンパクト化したルーティング情報を用いることで,従来の巨大なルーティング情報を持たせた場合と同等の低遅延ネットワークを実現可能とした.

(2)ランダムネットワークのように循環構造を持つネットワークでは,デッドロックと呼ばれる通信の行き詰まりが発生し,パケット通信が止まってしまう問題が存在する.提案する通信の混雑制御手法では,ネットワーク上でパケットを格納するバッファ数の削減と,通信フローをネットワーク上に割り当てるためのアルゴリズムの計算量の削減を両立し,従来手法に比べ大規模システムに対する高い実装可能性を達成した.

上記2手法を組み合わせ,ケーブル長を制限したランダムネットワークに適用することにより,低遅延性と拡張性を両立し,スーパーコンピュータ向けの実用的なネットワーク・アーキテクチャを確立した.