玉木研究室
名古屋工業大学
工学研究科工学専攻 情報工学系プログラム メディア情報分野
工学部 情報工学科 メディア情報分野
研究内容
映像理解のためのコンピュータビジョン
コンピュータビジョン
コンピュータや世界を認識するための技術です.デジカメで人の顔を認識したり,文字を読み取ってテキストにしたり,車載カメラから歩行者を検出したりと,近年は様々な場面で利用されています.
映像の認識と理解
インターネット上で入手できる膨大な動画の内容を解析したり,ロボットに搭載されるカメラ映像から周囲の環境を理解するための研究です.
映像による行動解析
人物が行う動作や,人物同士のやり取りなどを,映像から解析する研究です.膨大な量の映像データを高速に解析するための手法と,複雑なシーンを効率的に理解するための手法が必要となります.
映像理解と自然言語処理
映像を説明する文章を生成したり,映像に関する質問に答えるには,映像と言語の両方を理解する必要があります.このようなクロスモーダルなタスクの研究は近年重要になってきています.
これまでの研究(2020年以前)
これまで行ってきた研究の一部を紹介します
Which visual questions are difficult to answer? Analysis with Entropy of Answer Distributions
コンピュータが答えにくい質問はどのようなものか
画像についての質問に答えるVQAタスクでは,質問の難易度が様々であり,現在の深層学習モデルはその難易度を無視しています.本研究では,どのような質問が難しいのかを解析するために,エントロピーをクラスタリングする手法を提案し,実際に難しい質問がどれなのかを特定することが可能になりました.
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shun'ichi Satoh, Which visual questions are difficult to answer? Analysis with Entropy of Answer Distributions, Visual Question Answering and Dialog Workshop at CVPR 2020, online, June 14 2020. [arXiv PDF]
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shin’ichi Satoh. An Entropy Clustering Approach for Assessing Visual Question Difficulty, IEEE Access, vol. 8, pp. 180633-180645, 2020. [https://ieeexplore.ieee.org/document/9187418] [PDF]
Rephrasing visual questions by specifying the entropy of the answer distribution
難しい質問を簡単な質問に書き換えられるか
画像についての質問に答えるVQAタスクにおいて,簡単な質問を難しい質問へ,またその逆を行う手法を提案しました.回答分布のエントロピーが高いほど難しい質問であるという仮定のもと,入力した質問と指定した質問のエントロピーが近くなるような深層学習モデルによって,任意の難易度をもつ質問を生成することが可能になりました.(国立情報学研究所との共同研究)
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shin'ichi Satoh. Rephrasing visual questions by specifying the entropy of the answer distribution, IEICE TRANSACTIONS on Information and Systems, Vol.E103-D, No.11, pp.2362-2370, Nov. 2020. [https://doi.org/10.1587/transinf.2020EDP7089] [PDF]
Weakly supervised temporal action localization with spatial information
動画のどこでアクションが発生しているかを弱教師ありで学習
動画像から人間が動作を行っているイベント区間だけを検出するtemporal action localizationタスクにおいて,動画像へのイベント区間のアノテーションが不要な方法を弱教示あり学習と呼びます.従来手法は時間情報を扱うことに特化しているのに対して,本研究では空間情報を考慮する深層学習モデルを提案しました.
丸山虎実輝, 玉木徹, Bisser Raychev, 金田和文. Weakly supervised temporal action localization with spatial information, 第23回 画像の認識・理解シンポジウム (MIRU2020), オンライン 2020/8/2-5. [PDF]
Komiki Maruyama, Bisser Raytchev, Kazufumi Kaneda, Toru Tamaki. Weakly supervised temporal action localization with additional sub networks for local spatial information, The 27th International Workshop on Frontiers of Computer Vision (IW-FCV), PS1-7, 2021/2/22-23. [poster] [PDF]
Learning to shift temporal features with temporal shift module for action recognition
映像中で時間方向に特徴をシフトするべき場所を見つけ出す
動作認識では映像における時間方向の情報を効率的に抽出することが必要になります.そのために提案されていたTemporal Shift Moduleは,特徴量のチャンネルを時間方向に特徴量をシフトしていますが,シフトは事前に固定されていました.本研究では,空間の位置毎に可変なシフトモジュールを考案し,動作認識に必要な部分を重点的に時間方向シフトを行うという効率的な手法を提案しました.
Wataru Fuji, Bisser Raytchev, Kazufumi Kaneda, Toru Tamaki. p-TSM: Learning to shift temporal features point-wise for action recognition, The 27th International Workshop on Frontiers of Computer Vision (IW-FCV), PS1-4, 2021/2/22-23. [poster] [PDF]
藤井渉, Bisser Raytchev, 金田和文, 玉木徹, 動作認識のための時空間特徴における時間的相互作用, 第24回 画像の認識・理解シンポジウム (MIRU2021), オンライン, 2021/7/27-30. [PDF]