Accepted Papers

Towards End-to-End In-Image Neural Machine Translation. Elman Mansimov, Mitchell Stern, Mia Chen, Orhan Firat, Jakob Uszkoreit and Puneet Jain

Building a Bridge: A Method for Image-Text Sarcasm Detection Without Pretraining on Image-Text Data. Xinyu Wang, Xiaowen Sun, Tan Yang and Hongbo Wang

A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos. Frank F. Xu, Lei Ji, Botian Shi, Junyi Du, Graham Neubig, Yonatan Bisk and Nan Duan

Modulated Fusion using Transformer for Linguistic-Acoustic Emotion Recognition. Jean-Benoit Delbrouck, Noé Tits and Stéphane Dupont

A Multi-Modal English-Italian Parallel Corpus for End-to-End Speech-to-Text Machine Translation. Giuseppe Della Corte and Sara Stymne

Multimodal Speech Recognition with Unstructured Audio Masking. Tejas Srinivasan, Ramon Sanabria, Florian Metze and Desmond Elliott

MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical Attention. Aman Khullar and Udit Arora

Unsupervised Keyword Extraction for Full-Sentence VQA. Kohei Uehara and Tatsuya Harada

Reasoning Over History: Context Aware Visual Dialog. Muhammad Shah, Shikib Mehri and Tejas Srinivasan

Page updated

Google Sites

Report abuse