Main research
おもな研究
Main research
おもな研究
HPCおよびAIのための粗粒度回路再構成アレイ(CGRA)
当チームでは、データフロー計算モデルに基づくアーキテクチャであるCGRAの研究を行っています。CGRAでは、計算問題のデータフローグラフ(DFG)をアレイ上にマッピングすることにより、高スループットで計算を行います。これまで、トロント大学との共同研究を通じて、基本アーキテクチャである理研CGRAをそのプログラミング環境と共に開発し、RTLシミュレーションにより計算の検証や性能評価を行うことが可能となりました。基本アーキテクチャを開発することにより、例えば以下の設計空間探索などを行いました。また、CGRAの調査研究を行いました。
・CGRAにおける計算要素やロードストアタイルを接続するネットワークオンチップの違いによる、DFGマッピングの効率改善
・乗算と加算のFused multiply and add (FMA)に加え、除算や平方根などの複雑な演算を可能とする異なる計算要素を有するヘテロジニアスなCGRA
・条件分岐やループなどを可能とする、処理機構
・マップされたDFGにおける経路長の差による計算スループットの低下を抑えるための、FIFO深さの調査
・HPCの観点での、既存CGRAの調査
誤り耐性量子計算機のための、量子誤り訂正ハードウェア
誤りを訂正せずに計算を行うNISQ (Noisy intermediate-scale quantum computer)は、誤りにより十分な数の量子ビットやゲート操作深さを実現できない可能性があります。その問題を解決するために、複数の物理量子ビットで論理量子ビットを符号化する誤り耐性量子計算機FTQC (Fault-tolerant quantum computer)の実現が求められています。表現符号の誤り訂正には観測されたシンドローム情報からもっとも確からしい量子エラーを推定する必要があり、そのためのデコード処理を求められる低遅延かつ高スループットで完了する必要があります。当チームでは、デコードに用いられるシンドロームグラフの最小重み完全マッチング問題を解くアルゴリズムとそのハードウェア設計を研究開発しています。これまで、以下を実現しました。
・シンドロームの部分グラフを生成する3次元シストリックアレイ(3D SA)
・3D SAを用いてエラーデコードを行う初期の量子誤り訂正ハードウェア設計およびその評価
・量子誤り訂正ハードウェアのFPGA実装とそのプラットフォームであるFPGA Shell
問題特化型高性能計算機アーキテクチャ研究プラットフォームのためのFPGAクラスタ, ESSPER
半導体スケーリングによる電力効率の向上が困難となる中、問題に特化した計算機アーキテクチャやその高性能システムが注目されています。当チームでは、回路再構成可能デバイスであるFPGA (Field-Programmable Gate Array)を専用ネットワークで相互につないだFPGAクラスタ、ESSPER (Elastic and Scalable System for High-Performance Reconfigurable Computing)を開発しました。様々な専用ハードウェアモジュールを搭載し動作させるためのプラットフォームハードウェアであるFPGA Shellに加え、FPGA上のハードウェアモジュールを制御するソフトウェアのためのAPI、クラスライブラリ、ツールなどのシステムソフトウェアを研究しています。これらは、CGRAのFPGAプロトタイピング、量子誤り訂正ハードウェアのFPGA実装、高性能ネットワークやデータ圧縮ハードウェアに加え、凸包生成やグラフ探索問題などのアプリケーションに特化したハードウェア研究に利用されています。
FPGAクラスタにおける仮想回線交換網: VCSN (Virtual Circuit-Switching Network)
高性能計算における並列アーキテクチャにおいて、多様なアプリケーションに対して適切なノード間ネットワークトポロジを提供するには、冗長性の高い高コストなネットワークシステムを準備する必要があります。低コストかつ柔軟なネットワークトポロジを実現するために、FPGAの回路再構成可能性を利用して仮想的な回線交換網(VCSN)を構築し、シンプルなスイッチネットワーク上に任意の仮想ネットワークトポロジを構築するシステムを提案しました。このシステムでは、FPGA上に実装されたネットワークもジュールの制御用レジスタに接続情報を書き込むことで、ネットワークトポロジを再構築出来、イーサネットジャンボフレームを使うことにより高い実効帯域による通信が可能です。これまでに以下の研究を行いました。
・FPGAクラスタ上にVCSNを実現するシステムの設計と構築
・VCSNを利用した集団通信アプリケーションの実現とそれによる通信高速化の実証
・VCSNにより接続された複数FPGA上に、スケーラブルな任意サイズ・形状の2次元シストリックアレイアーキテクチャを実現
データ圧縮アルゴリズムおよびハードウェア
高性能計算機でもエッジの計算機でも、データ移動は計算処理性能のボトルネックとなると共に大きな割合の電力を消費します。これらの問題を解決するために、データ圧縮アルゴリズムとそのハードウェア設計の研究を行っています。これまで、数値計算による数値データストリームを、メモリ等にためることなくその場で可逆で圧縮可能な高スループットのハードウェア圧縮器を開発しました。動的に圧縮率の異なる複数の数値データストリームを単一のデータストリームに圧縮することが可能です。
+ Coarse-grained Reconfigurable Array (CGRA) for HPC and AI
Our team is working on CGRA, an architecture based on the dataflow computation model, which maps the dataflow graph (DFG) of a computation problem onto an array for high-throughput computation.Through collaboration with the University of Toronto, we have developed the basic architecture, RIKEN CGRA, together with its programming environment, and have been able to verify calculations and evaluate performance through RTL simulation. By developing the basic architecture, we have, for example, conducted the following design space exploration. We also conducted survey on existing CGRA.
・Improvement of DFG mapping efficiency by using different network-on-chip to connect processing elements (PEs) and load-and-store (LS) tiles in CGRA.
・Heterogeneous CGRA with different PEs, most of which has Fused multiply and add (FMA) while some PEs have complex operators such as division and square root required by some computing kernels.
・ Processing mechanisms that allow for conditional branching, loops, etc. in CGRA.
・FIFO depth study to mitigate computational throughput degradation caused by path length differences in mapped DFGs.
・Survey of existing CGRAs from the perspective of HPC
+ Quantum error correction hardware for fault-tolerant quantum computers (FQTC)
Noisy intermediate-scale quantum computers (NISQ), which perform quantum computing without error correction, may not be able to achieve a sufficient number of qubits or depth of gate operation due to errors. To solve this problem, a fault-tolerant quantum computer (FTQC), which encodes logical qubits with multiple physical qubits, is required. Error correction for a surface code requires the estimation of the most plausible quantum error from the observed syndrome information, and the decoding process must be completed with the required low latency and high throughput. Our team is researching and developing algorithms and hardware designs for solving the minimum weight perfect matching (MWPM) problem of the syndrome graph, which is used for decoding. So far, we have achieved the followings:
・3D Systolic Array (3D SA) to generate a subgraph of the syndrome graph for MWPM
・Early design of quantum error correction hardware and its evaluation for error decoding using 3D SA
・FPGA implementation of quantum error correction hardware and its platform, FPGA Shell
+ FPGA cluster, ESSPER, as a platform for research on application-specific high-perfornance computer architecture
As semiconductor scaling becomes more and more difficult to improve power efficiency, application-specific computer architectures and their high-performance systems are attracting attention. Our team has developed ESSPER (Elastic and Scalable System for High-Performance that is an FPGA cluster of field-programmable gate arrays (FPGAs) interconnected by a dedicated network. In addition to the FPGA Shell, which is the platform hardware for mounting and operating various dedicated hardware modules, we are researching system software such as APIs, class libraries, and tools for software controlling hardware modules on FPGAs. These are used for FPGA prototyping of CGRA, FPGA implementation of quantum error correction hardware, high-performance networking and data compression hardware, as well as application-specific hardware research such as convex hull generation and graph search problems. As a network between FPGAs, we have also developed VCSN (Virtual Circuit-Switching Network), on top of Ethernet, a packet-switched network.
+ Virtual circuit-switching network (VCSN) on FPGA clusters
In parallel computing architectures for HPC, it is necessary to prepare a highly redundant and expensive network system to provide an appropriate inter-node network topology for various applications. We proposed a system that builds a virtual circuit switching network (VCSN) using the reconfigurability of FPGA circuits and builds an arbitrary virtual network topology on a simple switch network. In this system, network topology can be instantly reconstructed by writing connection information to the control-status registers of a network module implemented in FPGA, and communication with a high effective bandwidth is possible by using Ethernet Jumbo Frames. We have conducted the following research so far:
・Design and construction of a system that realizes VCSN on an FPGA cluster.
・Realization of a group communication application using VCSN and demonstration of the resulting communication speedup.
・Realization of a scalable 2D systolic array architecture of arbitrary size and shape on multiple FPGAs connected by VCSN.
+ Algorithms and hardware designs for data compression
Whether on high-performance or edge computers, data movement is a bottleneck in computational processing performance and consumes a large percentage of power. To solve these problems, we are researching data compression algorithms and their hardware design. We have developed a high-throughput hardware lossless compressor that can compress numerical data streams on-the-fly without storing them in memory. It is capable of dynamically compressing multiple numerical data streams with different compression ratios into a single data stream.