Research Summary
研究概要
Research Summary
研究概要
半導体製造技術やパッケージング技術などの技術動向を考慮しながら、低電力で高性能処理を実現する計算機アーキテクチャの研究を行います。特に、計算アクセラレータなどの計算モデルやマイクロアーキテクチャ、そのコンパイラ等のシステムソフトウェア、並列の汎用計算システムにおける計算ノードやネットワークに加え、問題特化型の計算ハードウェアを探求します。
ムーアの法則と呼ばれる半導体微細化加工技術のスケーリングが減速し、また従来の平面型のゲート構造がFinFETやGate-all-around (GAA)のような3次元化した構造となるようにスケーリングそのものの質が変化する中、HPC(High-performance computing)やAI処理に求められる低電力・高性能処理をの実現が、益々困難となってきています。特に、半導体チップ上での演算処理よりも、チップ上でのデータ伝送やチップ外のDDRやHBMなどのメモリの読み書きに多くの電力が消費されるようになっており、データ移動やメモリ参照を効率化して無駄な消費電力を削減しつつ所望の計算処理を実現する計算機アーキテクチャ(回路やシステムの構成方式)が求められています。
また、近年では、比較的小さなチップであるChipletを複数枚接続して1ソケットのプロセッサなどを構成する方式が主流となっています。これは、半導体の微細化加工技術のみでは、単位面積あたりのトランジスタ数は増加するもののトランジスタの消費電力やコストは大きく改善しないこと、微細化が進むと大きな面積の半導体チップの場合には歩留まりが低下しがちであること、また、計算回路を構成するようなロジックと比べてオンチップメモリであるSRAMやアナログ素子は微細化による密度向上の恩恵を受けづらいことがその理由です。Chipletにより、プロセッサ、アクセラレータ、メモリ、アナログ入出力(PHY)、光電変換を、それぞれに適した半導体微細化加工技術で製造することができ、チップの小面積化により歩留まりを向上できるなどのメリットがある一方で、ソケット上に集積する複数のChipletを互いに接続するための技術であるパッケージング技術が益々重要となってきています。これまで技術開発の進んできたシリコンインターポーザーによる2.5DのChiplet接続に加え、電力消費を削減しつつもメモリとロジックメモリチップ間のデータ伝送の高速化のために、3Dスタッキング技術の開発が進められています。
当チームでは、以上のような技術トレンドを考慮して、低電力で高性能処理を実現するような計算機アーキテクチャを研究します。具体的には以下の研究課題に取り組んでいます。
・HPCやAIの高性能かつ低電力化のための、次世代計算機アーキテクチャの探求:
半導体チップであるASIC (Application Specific ntegrated Circuit)や次世代のメモリ技術を用いた実装を対象として、特にデータフロー計算モデルに基づき様々な演算処理をパイプライン並列で実行可能とする、粗粒度回路再構成アレイ(CGRA, Coarse-grained Reconfigurable Array)の研究を行います。
・アプリケーションごとに最適化した計算処理回路構造を用いた、問題特化型の計算機アーキテクチャの探求:
例えば、誤り耐性汎用量子計算機に求められる量子誤り訂正を低遅延かつ高スループットで実現するための専用ハードウェアや、理研 SPring-8などの放射光施設における検出センサー近傍での高スループットデータ処理のための専用ハードウェアの研究を行います。
・高性能な問題特化型計算機アーキテクチャを研究開発するためのシステムの探求:
上記の専用ハードウェアを研究開発するためのプラットホームとして、回路再構成可能デバイスである最新のFPGA (Field-Programable Gate Array)を専用のネットワークで相互に接続したFPGAクラスタシステムを開発します。FPGA上のハードウェアシステムやFPGA間ネットワークに加えて、システムソフトウェアや、「富岳」などのスーパーコンピュータと連携して動作させるための研究を行います。
EnglishWe conduct research on computer architectures that achieve high performance processing at low power, taking into account technological trends in semiconductor manufacturing and packaging technologies. In particular, we will explore computational models and microarchitectures of computing accelerators, system software such as their compilers, compute nodes and networks in general-purpose parallel computing systems, as well as domain-specific computing hardware.
As the semiconductor technology scaling, known as Moore's Law, slows down and the quality of the scaling itself changes from conventional planar gate structures to three-dimensional structures such as FinFETs and gate-all-around (GAA), it is becoming increasingly difficult to achieve the lower power and higher processing performance required for HPC (High-performance computing) and AI. In particular, more power is consumed for data movement on a semiconductor chip and reading/writing to off-chip memory such as DDR and HBM than for computing on a chip, and therefore it is required to explore a computer architecture that reduces unnecessary power consumption in achieving the desired processing by making data movement and memory access more efficient.
Also, in recent years, it is a mainstream to connect multiple chiplets, which are relatively small chips, to form a processor with a single socket. This is because semiconductor technology scaling alone does not significantly improve power consumption or cost per transistor while it increases the number of transistors per unit area; yields tend to decrease for large-area semiconductor chips along with semiconductor scaling; on-chip memory such as SRAM and analog devices are less likely to benefit from density improvements due to semiconductor scaling compared to logic that constitutes computing circuits.Chiplets allow processors, accelerators, memory, analog input/output (PHY), and optical-electro conversion devices to be manufactured using each of appropriate semiconductor technology nodes for them. Chiplets also have the advantage of improving yields by reducing the chip area. On the other hand, packaging technology, which is the technology to connect multiple chiplets integrated on a socket, is becoming more and more important. In addition to 2.5D Chiplet connection with silicon interposer that has been developed so far, 3D stacking technology is being developed especially for faster data transmission between memory and logic memory chips while reducing power consumption.
Considering the technological trends described above, our team researches computer architectures that achieve high performance processing at low power. Specifically, we are working on the following research topics:
・ Exploration of next-generation computer architectures for high-performance and low-power HPC and AI:
Targeting implementation with ASIC (application specific integrated circuit) and the next-generation memory technologies, in particular, we research coarse-grained reconfigurable arrays (CGRAs) that enable pipelined parallel execution of various arithmetic operations based on data-flow computing model.
・ Exploration of application-specific computer architectures that use circuit structures optimized for each problem:
For example, we research dedicated hardware for low latency and high throughput quantum error correction required for error-tolerant general-purpose quantum computers, and dedicated hardware for high-throughput data processing near detection sensors in synchrotron radiation facilities such as RIKEN SPring-8.
・ Research and development of systems for research on high-performance application-specific computer architectures:
We develop an FPGA cluster system, in which state-of-the-art FPGAs (Field-Programmable Gate Array) are interconnected by a dedicated network, as a platform for research and development of the above dedicated hardware. In addition to the hardware system and the network between FPGAs, research will be conducted on the system software and on how to operate the system in conjunction with supercomputers such as "Fugaku".