動作認識
動作認識について,最新の手法,データセット,様々なタスクについて解説しました.
玉木徹, 動作認識の最前線:手法,タスク,データセット, 精密工学会 画像応用技術専門委員会(IAIP) 2022年度第4回定例研究会, 中央大学, 東京・オンライン, 2022/11/18. [SlideShare] [PDF]
複数のドメインからなる動作認識データを学習するマルチドメイン学習において,モデルに依存しないアダプタを利用する手法を提案しました.
大見一樹, 玉木徹, 時空間アダプタを用いた動作認識のためのマルチドメイン学習, 第28回画像センシングシンポジウム(SSII2022), 2022/6/8-10, パシフィコ横浜, 神奈川. [PDF] [poster] [slide]
Kazuki Omi, Jun Kimata, Toru Tamaki, Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition, IEICE Transactions on Information and Systems, Vol.E105-D, No.12, pp.2119-2126, 2022. [https://doi.org/10.1587/transinf.2022EDP7058] [PDF]
アテンションマップを可視化する手法であるABNを動作認識に拡張子,インスタンスセグメンテーションで抽出した領域にアテンションを近づけるObject-ABNを提案しました.
仁田智也, 平川翼, 藤吉弘亘, 玉木徹, Object-ABN:動作認識のためのシャープなアテンションマップ生成, 第28回画像センシングシンポジウム(SSII2022), 2022/6/8-10, パシフィコ横浜, 神奈川. [PDF] [poster] [slide]
仁田智也, 平川翼, 藤吉弘亘, 玉木徹, インスタンスセグメンテーションを用いたシャープなアテンションマップ生成による動作認識, 情報処理学会コンピュータビジョンとイメージメディア研究会(CVIM研究会), 2022/5/12-13, 豊田工業大学, 愛知. [PDF] [poster] [slide]
Tomoya Nitta, Tsubasa Hirakawa, Hironobu Fujiyoshi, Toru Tamaki, Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition, IEICE Transactions on Information and Systems, 2023. (accepted)
動作認識用のデータ拡張手法はほとんどありません.そこで物体領域をセマンティックセグメンテーションで抽出しmixするObjectMixを提案しました.また従来手法であるVideoMixよりも性能が高いことを示しました.
木全潤, 仁田智也, 玉木 徹, ObjectMix:動画像中の物体のコピー・ペーストによる動作認識のためのデータ拡張, 第28回画像センシングシンポジウム(SSII2022), 2022/6/8-10, パシフィコ横浜, 神奈川. [PDF] [poster] [slide]
Jun Kimata, Tomoya Nitta, Toru Tamaki, ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition, ACM MM 2022 Asia, Tokyo, Japan/Online, 13-16 December, 2022. (accepted)
動画像を認識するときに,動画像がどれだけ劣化するとどれだけ性能に影響が与えるのかを調査し,0.5%〜1%程度の性能低下に抑えるための圧縮率を見出しました.
大谷碧生, 大見一樹, 橋口凌大, 福嶋慶繁, 玉木徹, 動画像の画質劣化に対する動作認識モデルの評価, 第28回画像センシングシンポジウム(SSII2022), 2022/6/8-10, パシフィコ横浜, 神奈川. [PDF] [poster] [slide]
Aoi Otani, Ryota Hashiguchi, Kazuki Omi, Norishige Fukushima, Toru Tamaki, Performance Evaluation of Action Recognition Models on Low Quality Videos, IEEE Access, vol. 10, pp. 94898-94907, 2022. [https://doi.org/10.1109/ACCESS.2022.3204755] [PDF]
動作認識のための特徴量シフト
Vision Transformerを用いた動作認識のために,特徴量をシフトするのではなく,アテンションを前後の時刻のフレームに適用する相互アテンション機構を提案しました.
橋口凌大, 玉木 徹, 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer, 第28回画像センシングシンポジウム(SSII2022), 2022/6/8-10, パシフィコ横浜, 神奈川. [PDF] [poster] [slide]
Ryota Hashiguchi, Toru Tamaki, Temporal Cross-attention for Action Recognition, ACCV2022 Workshop on Vision Transformers: Theory and applications (VTTA-ACCV2022), pp.276-288, Online, 2022/12/4-5. [CVF open access] [PDF]
藤井渉, Bisser Raytchev, 金田和文, 玉木徹, 動作認識のための時空間特徴における時間的相互作用, 第24回 画像の認識・理解シンポジウム (MIRU2021), ポスター, オンライン 2021/7/27-30. [PDF]
Wataru Fuji, Bisser Raytchev, Kazufumi Kaneda, Toru Tamaki. p-TSM: Learning to shift temporal features point-wise for action recognition, The 27th International Workshop on Frontiers of Computer Vision (IW-FCV), PS1-4 (2021.02.22-23) [poster]
藤井渉, 玉木徹, Bisser Raytchev, 金田和文, Learning channels to shift for temporal shift module, 第23回 画像の認識・理解シンポジウム(MIRU2020), オンライン 2020/8/2-5. [PDF]
動作区間検出:Temporal Action Localization
丸山虎実輝, Bisser Raychev, 金田和文, 玉木徹, 弱教師ありのアクション区間検出のための プロトタイプを用いた説明可能なネットワーク, 第24回 画像の認識・理解シンポジウム (MIRU2021), オンライン 2021/7/27-30. [PDF]
Komiki Maruyama, Bisser Raytchev, Kazufumi Kaneda, Toru Tamaki. Weakly supervised temporal action localization with additional sub networks for local spatial information, The 27th International Workshop on Frontiers of Computer Vision (IW-FCV), PS1-7 (2021.02.22-23) [poster]
丸山虎実輝, 玉木徹, Bisser Raychev, 金田和文, Weakly supervised temporal action localization with spatial information, 第23回 画像の認識・理解シンポジウム (MIRU2020), オンライン 2020/8/2-5. [PDF]
VQA
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shin’ichi Satoh. An Entropy Clustering Approach for Assessing Visual Question Difficulty, IEEE Access, vol. 8, pp. 180633-180645, 2020, doi: 10.1109/ACCESS.2020.3022063, 2020/Sept/07. [PDF] [Data on GitHub]
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shun'ichi Satoh, Which visual questions are difficult to answer? Analysis with Entropy of Answer Distributions, Visual Question Answering and Dialog Workshop at CVPR 2020, online, June 14 2020.
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shin'ichi Satoh. Rephrasing visual questions by specifying the entropy of the answer distribution, IEICE TRANSACTIONS on Information and Systems, Vol.E103-D, No.11, pp.2362-2370, Nov. 2020. DOI: 10.1587/transinf.2020EDP7089 [PDF]
人物の移動軌跡解析
平川翼, 山下隆義, 玉木徹, 藤吉弘亘, 動画像を用いた経路予測手法の分類, 電子情報通信学会論文誌D, Vol.J102-D, No.2, pp.53-67, Feb. 2019. DOI:10.14923/transinfj.2018JDR0003 [paper PDF]
Tsubasa Hirakawa, Takayoshi Yamashita, Toru Tamaki, Hironobu Fujiyoshi, "Survey on Vision-based Path Prediction," International Conference on Human-Computer Interaction (HCII2018), Jul. 2018 [paper PDF]
Toru Tamaki, Daisuke Ogawa, Bisser Raytchev, Kazufumi Kaneda, Semantic segmentation of trajectories with improved agent models for pedestrian behavior analysis, Advanced Robotics, Vol. 33, No.3-4, pp. 153-168, 2019. [Journal website] [arXiv PDF]
Daisuke Ogawa, Toru Tamaki, Bisser Raytchev and Kazufumi Kaneda, Semantic segmentation of trajectories with agent models, in Proc. of The International Workshop on Frontiers of Computer Vision (FCV2018), Future University Hakodate, Hakodate, Hokkaido, Japan, February 21-23, 2018 [arXiv PDF]
小川大輔, 玉木徹, Raytchev Bisser, 金田和文, 人物行動モデルによる軌跡のセマンティックセグメンテーション, 電子情報通信学会 パターン認識・メディア理解研究会(PRMU)技術報告, vol. 117, no. 391, PRMU2017-112, pp. 1-7, 2018年1月18日. 大阪府立大学, 大阪.
小川 大輔, 玉木 徹, Bisser Raytchev, 金田 和文, MDAを用いた歩行者軌跡のクラスタリング, 第20回画像の認識・理解シンポジウム(MIRU2017), 2017/8/7--10, 広島国際会議場, 広島 (2017)