2024年度ICPKG研究室 卒業研究紹介
2025/2/13日に卒業研究発表会があり、本研究室の学生がそれぞれの卒業研究について発表を行いました。
近年、通信技術や電子デバイスの性能向上に伴い、半導体のさらなる高密度化・小型化が求められており、従来の2次元集積技術に代わって、チップを縦方向に積層する3次元積層技術が注目されています。3次元積層技術の主な技術として、チップ内部に貫通電極として用いられるTSV(Through Silicon Via)技術、チップと基板を電気的接続させるバンプ技術が挙げられます。バンプには、球形・円柱形などの形状がありますが、中でも円錐形のバンプが注目されています。しかし、円錐バンプにはチップ間接合時の荷重を加えた際に、チップの内側・外側の荷重分布が不均一になり、バンプ高さ・バンプ抵抗のばらつきが生じ、接触不良や電気的信頼性の低下に繋がってしまいます。そこで、本研究では、円錐バンプに荷重を加えた際の荷重分布の均一化を目指し、バンプ高さ・抵抗のばらつきを低減させ、バンプアレイの圧力特性・電気特性の検討を行いました。
図1:2次元集積のモデル
図2:3次元積層のモデル
本研究では、4×4・5×5・6×6のバンプアレイのモデルを作成し、研究を進めました。
図3:4×4・5×5・6×6のバンプアレイのモデル
本研究では2つの手法を取り、1つ目の手法では、バンプアレイに段階的に環境温度を変化をつけることで、環境温度が高い円錐バンプを潰れやすくすることで、バンプアレイの変形量の均一化を目指しました。環境温度としては、外側から内側に向けて高くなるように設定しました。また、2つ目の手法では、チップ厚さを拡大させることで、物質の剛性を上昇させて、荷重分布の均一化を目指しました。チップ厚さとしては、10μmを元に、50μmまで拡大させました。
表1:6×6バンプアレイの環境温度表
図4:6×6バンプアレイの環境温度分布
図5:チップ厚さを段階的に拡大させた模試図
本研究の結果としては、2つの手法どちらにおいても、バンプ高さ・抵抗のばらつきの低減が行え、バンプアレイの数が増加するにつれて改善率も上昇していました。また、チップ厚さを変えた手法においては、50μm時にバンプ高さのばらつきを0に近い値まで低減できていました。本研究では、バンプアレイの最大値が6×6の36個でしたが、今後、大規模バンプアレイでも、本研究の手法が同様に効果的であるか検討していく必要があります。
図1 三次元積層半導体の構造の例
近年の三次元積層技術の発明により、複数のチップを立体的に積み重ねることが可能になりました。この技術には、電子機器における信号の伝送遅延の低減や、電力消費の削減といった大きな利点があります (図1)。しかし、チップ間に熱がこもりやすいため、チップの寿命が短くなったり、故障しやすくなるといった問題があります。したがって、効率的な放熱技術の開発と発展がますます重要になっています。
そこで、私は、高い熱除去能力を持つスプレー冷却技術に着目し、その中でも、二流体ノズルという特殊なノズルを用いたスプレーをチップの放熱に利用できないかと考えました。二流体ノズルとは、二種類の流体、すなわち、水と空気を混合して噴射するノズルのことです(図2)。これは主に洗浄に用いられるのですが、水のみを使用する一般的な一流体ノズルと比べ、液滴がより細かくなることや、噴射範囲を調節できることなどの優位性があります。
図2 二流体ノズルの構造の例
そこで、私は、高い熱除去能力を持つスプレー冷却技術に着目し、その中でも、二流体ノズルという特殊なノズルを用いたスプレーをチップの放熱に利用できないかと考えました。二流体ノズルとは、二種類の流体、すなわち、水と空気を混合して噴射するノズルのことです(図2)。これは主に洗浄に用いられるのですが、水のみを使用する一般的な一流体ノズルと比べ、液滴がより細かくなることや、噴射範囲を調節できることなどの優位性があります。
図3 作成したモデルの側面の断面
本研究では、二流体ノズルの性能評価のための比較対象とするため、研究の第一段階として、まず一流体ノズルの噴霧パラメータを評価しました。解析にはAnsys Fluent というシミュレーションソフトを使用し、噴射角度と流量という二つのパラメータを変化させた際、噴射面の表面温度が最も低減される条件を調査しました (図3)。
解析の結果、噴射角度が噴射面をちょうど覆い隠す角度のとき、また、流量が多くなるほど、噴射面の表面温度が低減されることが判明しました。これらの結果から、本研究の条件下では、液滴が噴射面に、より均一に付着し、液滴が噴射面から熱を奪う頻度が高くなるほど、チップの表面温度が効果的に低減されたといえます。
半導体はこれまでトランジスタのサイズの微細化などで性能向上を達成してきましたが、微細化に依存せずに性能を向上させる手法としてチップレット技術や異種チップ集積が注目されています。特に2.5次元パッケージと呼ばれるSiインターポーザという中間基板を用いてチップを集積する技術(図1)は複数のチップを高密度に集積できることから注目度が高いです。Siインターポーザという技術は注目されてからまだ日が浅くSiインターポーザの配線に関する研究は多く無いこともあり、配線に関して着目し研究を行いました。
図1 2.5次元パッケージ
本研究では、配線形状の変更による信号品質の調査と、配線層の上層と下層にオフセットと呼ばれるズレをつけることがクロストークを低減するのかについて調査を行いました。
具体的には図2、図3、図4のような3パターンの配線形状を作成し、図5のようにオフセットを付けました。オフセットの量としては、0µm、0.8µm、1.6µm、2,4µmの4パターンで、配線形状3パターンそれぞれにオフセットをつけることで合計12パターンの配線モデルを作成し信号品質とクロストークについて調査を行いました。
図 2 配線形状1
図3 配線形状2
図4 配線形状3
図5 配線形状4
結果としては、配線幅を小さくし配線厚みを厚くした配線形状に変更すると挿入損失とクロストークを低減できることがわかりました。またオフセットと信号品質に関しては本研究で調査した12パターンでは相関は見られませんでしたが、3パターンそれぞれの配線形状に適切なオフセットをつけることで信号品質を向上させられることがわかりました。
今後は、本研究で考慮していないビアが信号品質に与える影響の調査に加えてSiインターポーザの作成を行い、実測もしていきたいと考えています。
現在、半導体の集積度と性能の向上がすすんでいる中、微細化に依存せずに性能を向上させる手法として、チップレット技術や異種チップ集積が注目されるようになってきています。特に、2.5Dパッケージング技術は、シリコンインターポーザを用いて複数のダイ(チップレット)を高密度に接続し、一つの大規模なシステムを構築する技術として注目されています(図1)。しかし、このシリコンインタポーザを用いたチップ間通信において、伝送線路の物理構造に着目した研究はあまり行われてきませんでした。
図1 シリコンインターポーザを用いたチップ間通信の概要図
そこで、伝送線路の物理構造に着目し、線路の物理構造が通信性能に与える影響について調査しました。また、通信性能について最適な物理構造と信号線の導体幅について調べました。
具体的には図2、3のように、線路の物理構造をかえ、その導体幅について変更することで、信号の通信性能にどのような影響があるかを調査しました。
図2 ストリップ構造
図3 コプレーナ構造
結果としては、信号線の導体幅を大きくすると、特性インピーダンスが低下し、反射によるロス、信号が透過することによるロスが大きくなることが分かりました。また、同じ導体幅で比較をすると、ストリップ構造と比較し、コプレーナ構造の方が信号のロスが少ないことが分かりました。しかし、コプレーナ構造ではグランド線がある分配線幅が増加してしまうという信号品質と導体幅にトレードオフ関係があることが確認できました。
今後は、ほかの信号の影響を考慮し、Ansys HFSSなどの電磁界解析ソフトを用いてより厳密に調べていく予定です。
集積回路(IC)の技術は急速に進化しており、特に高性能で低消費電力の通信技術が求められています。3次元積層技術は、従来の2次元基板に代わり、チップ間通信の配線長を短縮し、高い集積度と通信速度を実現する技術として注目されています。しかし、3次元積層技術における信号伝送には、遅延や消費電力の増加、信号品質の低下といった新たな課題が伴います。
本研究では、信号伝送方式としてCMOSインバータとLow Voltage Differential Signaling(LVDS)の2つを対象に、信号品質と消費電力の特性を調査しました。信号源として、Chip1ではCMOSインバータおよびLVDSが使用され、出力されたデジタル信号は、3次元積層デバイス内でThrough-silicon Via(TSV)を通じて、Chip2の受信部(Rx)に送信されます。信号品質については、CMOSインバータおよびLVDSの両方とも通信システムとして十分な品質が確認されました。
また、消費電力については、さまざまな条件下で調査を行い、CMOSインバータの消費電力がLVDSの消費電力よりも小さい場合もあれば、逆にLVDSの消費電力がCMOSインバータより小さい場合もあることが分かりました。この結果から、各技術の消費電力は使用条件によって異なることが示唆されました。
今後の研究では、複数のチップ間通信において、CMOSインバータおよびLVDSが他の信号に与える影響を調べ、さらなる最適化を図る予定です。
近年における、 農作物被害や生態系への影響を引き起こす害獣の問題は未だ深刻であり、これに対する効果的な監視および対策技術の開発が求められています。しかし、害獣の監視や個体識別に用いられる従来のシステムでは、カメラを常時稼働させる必要があるなど、高い消費電力が課題となっている現状があります。特に、電源の確保が困難な場所も多い山間部や農地では、省電力かつ効率的なシステムの構築が不可欠です。本研究では、これらの課題を解決するために、2つのセンサによるカメラ起動制御を導入し、YOLOv5を用いた害獣認識が可能なシステムの提案を行います。また、提案するシステムを30日間連続で稼働することを想定し、消費する電力量の評価も行います。
提案システムでは、人感センサと超音波センサを組み合わせた制御を採用し、対象の存在を検知した場合にのみカメラを起動する仕組みを構築しました。これにより、カメラの常時稼働を避け、待機時の消費電力を大幅に削減することを目指しました。また、害獣の個体識別にはYOLOv5を用いた物体検知モデルを導入し、令和5年度の日本における害獣被害額上位5種(シカ、クマ、イノシシ、アライグマ、サル)の識別を実現します。本システムは、Raspberry Pi 3 Model Bを中心として、GPIOピンを介して各センサの制御、カメラを制御する設計を採用しています。以下に図1、図2として、提案システムの接続図、およびシステムの流れを示します。
図1 提案システムの接続図
図2 提案システムの流れ
消費電力量の測定にはUSB簡易電圧・電流チェッカーを用いました。このチェッカーでは、電圧値[V]、電流値[A]、経過時間、積算電流値[mAh]を表示することが可能です。
電力量の測定パターンは、①カメラを1時間稼働させた時、②センサのみを1時間稼働させた時、③Raspberry Pi 3 Model BでYOLOv5を1時間稼働させた時、全3パターンで測定を行いました。
これらの結果をもとに、30日間稼働させるシステムを3つ想定します。1つ目が、カメラを常時稼働させるシステムです。2つ目は、センサによるカメラの起動待機とカメラによる撮影・保存を繰り返すシステムです。3つ目は、センサによる待機からカメラによる撮影・保存の後にYOLOv5による害獣種推論を行うシステムです。カメラによる撮影を行っている時間を「撮影時間」、センサによるカメラ起動待機を行っている時間を「待機時間」、YOLOv5による推論を行っている時間を「YOLO推論時間」として、各システムに時間設定を行っています。以下の円グラフで、その時間設定を示します。
図3 各システムの時間設定
円グラフの青色に示す部分がカメラで撮影を行っている時間、橙色で示す部分がセンサによる待機を行っている時間、緑色の部分がYOLOv5による推論を行っている時間です。これらのシステムによる消費電力量を、前述で計測した消費電力量から試算を行いました。
試算結果としては、①カメラ常時稼働時と比較して②提案システム(撮影のみ)では、30日間にかかる電力量が40%ほど削減されると試算されました。また、①カメラ常時稼働時と比較して③提案システム(撮影・YOLO推論)では、消費電力量が15%ほど増加すると試算されました。
まとめ
今回提案した害獣認識システムは、Raspberry Pi 3 Model Bを中心に人感センサと超音波センサによるカメラの起動制御とYOLOv5による害獣認識の実現、それによる消費電力量削減効果の評価を行いました。結果としてはカメラを常時稼働させた時と比較して、センサによる待機とカメラによる撮影を行うシステムでは約40%の消費電力量削減効果が試算されました。しかし、このシステムにYOLOv5の処理を加えると、消費電力が増加して30日間の消費電力量がカメラ常時稼働時と比較して約15%増加すると試算されました。
今後は、システム内で最も消費電力の大きいYOLOv5の処理を考慮したシステムの構築によって、より低消費電力な害獣認識システムの開発を目指したいと考えています。
SLAM(Simultaneous Localization and Mapping)は、ロボットや自動運転車などが「自己位置推定(自分が今どこにいるのか)」と「環境地図作成(周囲の環境がどうなっているのか)」を同時に行う技術です。例えば、自律走行ロボットが未知の部屋の中を移動するとき、SLAMを使うことで地図を作りながら自分の位置を把握し、障害物を避けながら移動することができます。SLAMには、カメラ、LiDAR(レーザーセンサ)などが主に使われ、特にカメラを使用する方法は「Visual SLAM(VSLAM)」と呼ばれます。
Visual SLAMは、カメラの映像を使って自己位置推定とマッピングを行う技術です。これは、人間が目を使って周囲の環境を把握するのと似た方法です。Visual SLAMのメリットは、LiDARを使う方法よりも安価で小型なシステムを作れる点にあります。そのため、ロボットやドローン、AR(拡張現実)、VR(仮想現実)など、さまざまな分野で活用されています。Visual SLAMの基本的な流れは以下のようになります。
特徴点の検出:カメラ映像から特徴的な点(角や模様など)を見つける
特徴点の追跡:連続するフレームの中で、同じ特徴点がどのように動いたかを調べる
自己位置の推定:特徴点の動きから、カメラがどの方向へ動いたかを計算する
地図の作成:特徴点の位置を記録し、環境の地図を作成する
ORB-SLAM3は、Visual SLAMの中でも特に高精度で広く使われているアルゴリズムです。特徴点の検出に「ORB(Oriented FAST and Rotated BRIEF)」という手法を使い、単眼カメラ、ステレオカメラ、RGB-Dカメラ、IMU(慣性センサ)のマルチセンサに対応し、堅牢(外乱に強く安定)かつ高精度な自己位置推定と環境地図作成を可能にしています。しかし、ORB-SLAM3は計算リソースを大量に消費するため、リソースが制限された環境では処理速度が低下し、システムの応答性が損なわれます。この問題は、組み込みシステムなどの環境でORB-SLAM3を運用する際の大きな課題となります。
そこで注目したのがFPGAです。FPGA(Field Programmable Gate Array)は、プログラム可能なハードウェアデバイスであり、用途に応じた専用回路をソフトウェア的に設計・実装することが可能なデバイスです。FPGAは、複数の小規模な論理ブロックと、それらを接続する再構成可能な配線から構成されており、高い設計柔軟性と並列処理能力、低消費電力が特徴です。これにより、特定の処理をハードウェアレベルで最適化し、高速化することが出来ます。
よって、本研究では、マルチセンサ対応かつ高い堅牢性を有するVisual SLAMソフトウェアである「ORB-SLAM3」を対象に、その処理時間を詳細に分析し、計算コストの高いボトルネック処理を特定します。この分析に基づき、特に計算負荷が集中する部分に対して、FPGAを用いたハードウェアアクセラレーションを導入します。FPGA開発においては、高位合成(HLS : High Level Synthesis)技術を活用することで、開発時間の短縮や設計の柔軟性向上を図り、FPGAへの効率的な実装を実現します。
プロファイリングツールを用いて、PC環境でのORB-SLAM3をホットスポット解析しました。解析結果から、cv::FASTが比較的処理時間が長く、FPGA化対象に適した処理だと考えました。FAST(Features from Accelerated Segment Test)はOpenCVに実装された高速かつシンプルなコーナー検出アルゴリズムであり、SLAMやコンピュータビジョンなどの様々な分野で広く使用されています。
FAST処理をFPGA化するにあたって、Vitis Vision Libraryを用いました。Vitis Vision Libraryは、Xilinxが提供するFPGA上での画像処理の実装を効率化する高位合成ベースのライブラリです。ここで提供されているxf_fast_accel.cppを改良して高位合成を行いました。その後、Vivadoを用いてBlock Designを作成し、FAST処理のFPGAアクセラレータが正しく動作することを確認しました。
FPGAを用いたFAST処理のハードウェアアクセラレーションの効果を定量的に確認するために、Raspberry Pi 4 Model B、PC、Kria KV260 (PS : Processing System)、Kria KV260 (PS+PL : Processing System + Programmable Logic) の4つの異なる環境において、FAST処理を実行したときの処理時間および消費電力を測定しました。また、FAST処理をKria KV260ボード(型番 : SK-KV260-G)に実装したときのハードウェア使用率を測定しました。
FPGAでの設計は他の環境と比較して、処理時間が短縮され、エネルギー効率も高いことが分かりました。また、ハードウェア使用率にも余裕があり、さらなる低遅延化・機能拡張の可能性が高いと考えられます。
仮にFPGAをORB-SLAM3に導入すると、ORB-SLAM3システム全体において、最大で約5.12 %の処理時間短縮の可能性があると考えられます。ORB-SLAM3システム全体においては、FPGAアクセラレータの効果は限定的ですが、特徴点抽出を行うTRACKINGスレッドにおいては、最大で約25.7 %の処理時間短縮の可能性があると考えられます。よって、特徴点抽出が主要な処理となるシステムに対しては、FPGAアクセラレータの導入が極めて有効な可能性が高いと考えられます。具体的には、欠陥検出のための工業用検査システムや大規模データベースから類似画像を検索する物体認識AI等が挙げられます。
また、現状はFAST処理単体のFPGA化で留まっています。今後の課題として、ROS 2を用いたFPGAアクセラレータとORB-SLAM3のシステム統合が挙げられます。ROS 2(Robot Operating System 2)は、ロボットアプリケーションの開発を支援するオープンソースのミドルウェアフレームワークで、モジュール化されたノードベースのアーキテクチャを持ち、FPGAアクセラレータとの統合に適したフレームワークだと考えられます。
目的
本研究では、ORB-SLAM3における主要なホットスポット処理であるFASTアルゴリズムを対象に、FPGAによるハードウェアアクセラレーションを試みました。
結果
FPGAにおけるFAST処理時間は約0.270 msと、PCと比較して約1∕3.5の処理時間短縮が確認されました。FPGAアクセラレータをORB-SLAM3に導入すれば、ORB-SLAM3システム全体において最大で約5.12 %、TRACKINGスレッドにおいて、最大で約25.7 %の処理時間短縮の可能性があります。
今後の課題
ROS 2を用いたFPGAとORB-SLAM3のシステム統合、他のボトルネック処理のFPGA化
近年、AI技術の進展によりロボットの自律性が向上していますが、従来のロボットは事前プログラムされた動作しか実行できず、未知の環境や新しいタスクへの対応が困難でした。本研究では、生成AI(GPT-4, GPT-4o)と双腕ロボットアーム(MyCobot 280-Pi)を組み合わせた自律制御システムを開発を目指しました。
現在の段階ではロボットアームの動作制御には着手しておらず、本研究ではカメラを用いた物体認識の精度および処理時間の評価に重点を置いています。
実験では、Raspberry Pi 4 Model B を内蔵するmyCobot 280-PiにUSBカメラを接続し、GPT-4oを用いた物体認識の性能を評価しました。評価の結果、GPT-4oは環境内の物体を正確に認識できることが確認されました。
また物体認識にかかる処理時間として、同一写真で物体認識を10回行った結果、物体が1個の場合の平均処理時間は2.84秒、10個の場合は4.38秒であり、物体数が増えるにつれて処理時間が増加する傾向が見られました。
また、同じ画像を解析した場合でも、生成される説明の詳細度によって処理時間に差が生じることが確認されました。簡潔な内容を生成した場合(26字)は1.93秒、詳細な内容を生成した場合(61字)は3.46秒と、生成内容の複雑さによって処理時間が増加することが確認されました。
物体認識の入力画像(1 個)
物体認識の入力画像(10 個)
生成内容結果
同一画像における生成時間1.93秒の場合と3.46秒の場合の結果
今後は、RGB-Dカメラ等を使用して認識した物体の位置情報を活用し、ロボットアームの動作制御へと発展させることで、より高度な自律制御システムの実現を目指します。
デジタルツインは、物理空間とデジタル空間をリアルタイムで連携させ、シミュレーションや制御を行う技術です。しかし、通信処理やデータ転送において遅延が大きくなると、リアルタイムでの反応が遅れ、システムの制御精度が低下する課題があります。特に組込みデバイスにおいては、リソースが限られているため、遅延の影響を最小限に抑えることが難しく、効率的な通信とリアルタイム性の確保が課題となります.そこで,組込みデバイスにおいてlatency-awareなデジタルツインのシミュレータがあれば,ロボット開発において場所を選ばず開発を行うことが可能となり,効率的な設計や動作確認が期待できます.そのため,本研究ではFPGAとROS 2およびmROS 2を用いて,組み込みデバイスにおける遅延の発生要因を調査することを目的とします.特に,FPGAの活用による通信処理の高速化とリアルタイム性向上の可能性を検討し,ROS 2およびmROS 2間での通信遅延を分析します.
通信評価では,PC間通信およびPCとESP間通信を対象とし,ROS 2通信とmROS 2通信における遅延特性を比較・検討しました.表1は実際に評価を行った環境をまとめています.また,図 は通信評価を行う為の測定方法を図示したものです.実際の測定手順は以下の通りです.
(1) Requesterは送信時にタイムスタンプを添付
(2) Responderは受信後,そのままRequesterに返信
(3) Requesterは現在時刻を取得し遅延時間を計算
通信特性の評価として(1)mROS 2自体の性能,(2)使用ハードウェアの影響,(3)通信間隔による影響を比較していきました.そこで本研究では評価項目(1)は表1の環境1(a~c)と環境2(a~c)を比較,評価項目(2)は表1の環境2-cと環境3を比較,評価項目(3)は表1の環境3の通信間隔を変化させ,比較しました.
評価項目(1)ではROS 2とmROS 2では大きな性能の差はみられませんでした.
図2は評価項目(2)の結果を図示したものです.
図 2 無線LAN環境での比較
デバイスによる違いとして,マイコンを利用した場合とPCを利用した場合の差は通信時間の最大値は26倍,最小値は4倍,平均値は14倍,変動値は45倍と大きな差が得られました.
評価項目(3)では通信間隔が0.1msと1msのものを比較しました.0.1msの平均値は
0.046ms,変動値は0.126ms,0.1msの平均値は0.073ms,変動値は0.114msとなりました.
まとめ
本研究では、様々な環境においてROS 2, mROS 2を利用しFPGA化において高速化可能な点の検討を行いました.現状の動作を分析したところ、PCでmROS 2を利用した場合,ROS 2との性能差が見られなかったが,マイコンを利用した場合には通信時間が大幅に増加してしまった.また,同じマイコンを利用し,通信間隔を変化させ通信を行った場合には通信間隔を長くすることで変動値が小さくなることがわかった.従って、送受信,publisher,subscriberの処理を並列化することが低遅延化の鍵であると考えられます。今後の課題は、FPGAを用いたmROS 2の利用を実現し,現状のマイコンを使った場合より通信時間をを短縮することです。