リアルタイム3次元画像認識

(RGBD SLAMの最適化)

2022-05-21 作成:寺田英雄(博士課程後期:社会人コース/株式会社オープンストリームCTO)

最新の活動報告はこのページの最後のほうにあります

ブログ

図1 Visual SLAMの利用例:自律移動ロボットの移動制御

図2 典型的なSLAMシステムの構成

研究紹介

 背景

インターネットや計算機技術の発展により、さらにCOVID-19コロナ禍により加速しつつある人間活動のリモート化オンライン化メタバース化によって、3次元画像技術へのニーズも高まっています。

3次元画像認識の分野においては、深層学習に代表されるAI技術の活用により、より高度な認識タスクを実現したり、従来よりも容易に3次元認識機能を利用できるようになることが期待されています。

Visual SLAM

Visual SLAM(ビジュアル・スラム)は、画像処理によって3次元空間を認識する技術の一つで、自律移動ロボットの移動制御によく使われる技術です。カメラを搭載したロボットやドローン等が周囲の様子を撮影しながら空間内を移動することにより、その空間の3次元地図を作成することができる技術です。同時に、その地図を使ってロボットは自分の位置を知ることもできます。(地図作成+自己位置認識を同時に実行する技術なので、SLAM(スラム:Simultaneous Localization And Mapping)と呼ばれています。)

Visual SLAMは、カメラだけあれば成立するので、GPSが使えない屋内などでもロボットが自己の位置を知ることができるのがメリットです。また、未知の空間においても自力で地図を作ることができるので、事前に地図を用意する必要がありません。そのため新設の建物や災害地で活動するロボットにおいて役立つ技術です。

本研究のねらい:"Visual SLAMの民主化"

本研究では、深層学習などの機械学習技術を用いてアルゴリズムを改良・最適化することにより、より軽量で使いやすい (=「民主的な」)Visual SLAM機能の実現を目指しています。

これにより、IoT用途などの小型で低コストなコンピュータにおいて SLAM を実行したり、様々な分野のアプリケーションに簡単にVisual SLAM機能を追加したりすることが可能となります。

主な研究内容

従来型 Visual SLAMの問題点

個別に設計されたアルゴリズムの雑多な集合体となっている

従来(現行)のVisual SLAMは、様々なアルゴリズムを多数組み合わせて実現されています。例えば、画像撮影、画像の前処理、画像特徴抽出特徴マッチング局所地図作成広域地図統最適化ループ検出・・・等々です。

その問題点としては、歴史的経緯などもあり、これらのアルゴリズムがそれぞれ個別に手動で最適化されてきた、という点が挙げられます。たとえば画像の特徴抽出であれば、どんなシーンの画像に対しても最善の特徴検出をしよう、という万能の検出器が研究目標となることが多いのです。

しかし、Viusal SLAMの実務応用においては、用途に応じて要求性能が異なってきます。また、コスト制約のため、使える計算量やメモリ容量に制約を受ける場合もあります。それらの要件・制約を満たすためには、アルゴリズムの個別最適ではなく、SLAMシステム全体としての最適化が望ましいのですが、従来のアプローチではそれは困難でした。

機械学習によるRGBD SLAMの仕様制約つき最適化

本研究では、Visual SLAM のうち特にRGBD信号を用いる RGBD SLAMに着目し、そこに適用する画像特徴抽出モデルをAI(深層学習)を用いて構成します。モデルの構造や学習時に適用する損失関数を工夫することにより、応用先のシステム仕様や制御仕様に応じて最適な特徴抽出モデルを与えることができる枠組みの成立を目指します。

図3 SLAMの最適化の枠組みイメージ

研究活動報告

2023-06-29 第143回 MPS研究会(情報処理学会)にて研究発表を行いました。以下にその発表スライドを示します。

発表スライド 


2023-06-29 MPS143 研究会発表<研究室サイト公開用>