Learning to Answer Questions in Dynamic Audio-Visual Scenarios

Information

2022년 11월 04일 (금) | 발표자: 박규빈

Slide

Download the slide

Overview

본 논문에서는 Audio-Visual Question Answering task에 집중한다. 이 문제는 audio-visual scene에 대한 포괄적인 multimodal understanding과 spatio-temporal reasoning을 요구한다. 우리는 large-scale MUSIC AVQA dataset을 만들고 AVQA task를 위한 spatio-temporal grounded audio-visual network를 개발하였다. 우리의 연구 결과는 AVQA task가 multisensory perception의 도움을 받고 우리의 모델이 최근의 audio- / visual- / audio-visual- / approach들을 능가함을 보인다.

Replay on YouTube

Page updated

Google Sites

Report abuse