玉木研究室

名古屋工業大学

工学研究科工学専攻 情報工学系プログラム メディア情報分野

工学部 情報工学科 メディア情報分野

研究内容

映像理解のためのコンピュータビジョン

コンピュータビジョン

コンピュータや世界を認識するための技術です.デジカメで人の顔を認識したり,文字を読み取ってテキストにしたり,車載カメラから歩行者を検出したりと,近年は様々な場面で利用されています.

映像の認識と理解

インターネット上で入手できる膨大な動画の内容を解析したり,ロボットに搭載されるカメラ映像から周囲の環境を理解するための研究です.

映像による行動解析

人物が行う動作や,人物同士のやり取りなどを,映像から解析する研究です.膨大な量の映像データを高速に解析するための手法と,複雑なシーンを効率的に理解するための手法が必要となります.

映像理解と自然言語処理

映像を説明する文章を生成したり,映像に関する質問に答えるには,映像と言語の両方を理解する必要があります.このようなクロスモーダルなタスクの研究は近年重要になってきています.

これまでの研究(2020年以前)

これまで行ってきた研究の一部を紹介します

Which visual questions are difficult to answer? Analysis with Entropy of Answer Distributions

コンピュータが答えにくい質問はどのようなものか

画像についての質問に答えるVQAタスクでは,質問の難易度が様々であり,現在の深層学習モデルはその難易度を無視しています.本研究では,どのような質問が難しいのかを解析するために,エントロピーをクラスタリングする手法を提案し,実際に難しい質問がどれなのかを特定することが可能になりました.

Rephrasing visual questions by specifying the entropy of the answer distribution

難しい質問を簡単な質問に書き換えられるか

画像についての質問に答えるVQAタスクにおいて,簡単な質問を難しい質問へ,またその逆を行う手法を提案しました.回答分布のエントロピーが高いほど難しい質問であるという仮定のもと,入力した質問と指定した質問のエントロピーが近くなるような深層学習モデルによって,任意の難易度をもつ質問を生成することが可能になりました.(国立情報学研究所との共同研究)

Weakly supervised temporal action localization with spatial information

動画のどこでアクションが発生しているかを弱教師ありで学習

動画像から人間が動作を行っているイベント区間だけを検出するtemporal action localizationタスクにおいて,動画像へのイベント区間のアノテーションが不要な方法を弱教示あり学習と呼びます.従来手法は時間情報を扱うことに特化しているのに対して,本研究では空間情報を考慮する深層学習モデルを提案しました.

Learning to shift temporal features with temporal shift module for action recognition

映像中で時間方向に特徴をシフトするべき場所を見つけ出す

動作認識では映像における時間方向の情報を効率的に抽出することが必要になります.そのために提案されていたTemporal Shift Moduleは,特徴量のチャンネルを時間方向に特徴量をシフトしていますが,シフトは事前に固定されていました.本研究では,空間の位置毎に可変なシフトモジュールを考案し,動作認識に必要な部分を重点的に時間方向シフトを行うという効率的な手法を提案しました.

企業の方へ

共同研究等のご案内