Ryo Masumura, Tomohiro Tanaka, Naoki Makishima, Mana Ihori, Shota Orihashi, Naotaka Kawata, Taiga Yamane, Satoshi Suzuki, Takafumi Moriya, "Phoneme Overlapping-Aware Pre-Training with External Text Resources for Multi-Talker ASR", In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2025.
Mana Ihori, Taiga Yamane, Naotaka Kawata, Naoki Makishima, Tomohiro Tanaka, Satoshi Suzuki, Shota Orihashi, Ryo Masumura, "Few-shot Personalization via In-Context Learning for Speech Emotion Recognition based on Speech-Language Model", In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2025. (arxiv)
Takafumi Moriya, Masato Mimura, Tomohiro Tanaka, Hiroshi Sato, Ryo Masumura, Atsunori Ogawa, "All-in-One ASR: Unifying Encoder-Decoder Models of CTC, Attention, and Transducer in Dual-Mode ASR", In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2025.
Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama, "Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2025.
Tomohiro Tanaka, Ryo Masumura, Naoki Makishima, Mana Ihori, Naotaka Kawata, Shota Orihashi, Satoshi Suzuki, Taiga Yamane , "Semi-Supervised End-to-End Speech-to-Text Translation with Joint Text-to-Text and Speech-to-Text Decoding", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2025.
Taiga Yamane, Satoshi Suzuki, Ryo Masumura, Shota Orihashi, Tomohiro Tanaka, Mana Ihori, Naoki Makishima, Naotaka Kawata, "MSMVD: Exploiting Multi-scale Image Features via Multi-scale BEV Features for Multi-view Pedestrian Detection", In Proc. The British Machine Vision Conference (BMVC), 2025. (arxiv)
Taiga Yamane, Ryo Masumura, Satoshi Suzuki, Shota Orihashi, "MVTrajecter: Multi-View Pedestrian Tracking with Trajectory Motion Cost and Trajectory Appearance Cost", In Proc. International Conference on Computer Vision (ICCV), 2025. (arxiv)
Naoki Makishima, Naotaka Kawata, Taiga Yamane, Mana Ihori, Tomohiro Tanaka, Satoshi Suzuki,Shota Orihashi, Ryo Masumura, "SOMSRED-SVC: Sequential Output Modeling with Speaker Vector Constraints for Joint Multi-Talker Overlapped ASR and Speaker Diarization", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.3893-3897, 2025. (pdf)
Naoki Makishima, Naotaka Kawata, Taiga Yamane, Mana Ihori, Tomohiro Tanaka, Satoshi Suzuki,Shota Orihashi, Ryo Masumura, "Unified Audio-Visual Modeling for Recognizing Which Face Spoke When and What in Multi-Talker Overlapped Speech and Video", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1838-1842, 2025. (pdf)
Haris Gulzar, Monikka Roslianna Busto, Akiko Masaki, Takeharu Eda, Ryo Masumura, "Leveraging LLMs for Written to Spoken Style Data Transformation to Enhance Spoken Dialog State Tracking", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1743-1747, 2025. (pdf)
Takafumi Moriya, Shota Horiguchi, Marc Delcroix, Ryo Masumura, Takanori Ashihara, Hiroshi Sato, Kohei Matsuura, Masato Mimura, "Alignment-Free Training for Transducer-based Multi-Talker ASR", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025. (arxiv)
Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Satoshi Suzuki, Saki Mizuno, Nobukatsu Hojo, "Multimodal Fine-Grained Apparent Personality Trait Recognition: Joint Modeling of Big Five and Questionnaire Item-level Scores", In Proc. AAAI Conference on Artificial Intelligence (AAAI), pp.1456-1464, 2025. (pdf)
Kazutoshi Shinoda, Nobukatsu Hojo, Kyosuke Nishida, Saki Mizuno, Keita Suzuki, Ryo Masumura, Hiroaki Sugiyama, Kuniko Saito, "ToMATO: A Comprehensive Benchmark for Evaluating Theory of Mind in Large Language Models", In Proc. AAAI Conference on Artificial Intelligence (AAAI), pp.1520-1528, 2025. (pdf)
Naotaka Kawata, Shota Orihashi, Satoshi Suzuki, Tomohiro Tanaka, Mana Ihori, Naoki Maikishima,Taiga Yamane, Ryo Masumura, "Block Refinement Learning for Improving Early Exit in Autoregressive ASR", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2024. (pdf)
Ryo Masumura, Akihiko Takashima, Shota Orihashi, Satoshi Suzuki, "Born-Again Multi-Task Self-Training for Multi-Task Facial Emotion Recognition", In Proc. International Conference on Pattern Recognition (ICPR), pp.94-108, 2024. (pdf)
Taiga Yamane, Satoshi Suzuki, Ryo Masumura, Shotaro Tora, "MVAFormer: RGB-Based Multi-View Spatio-Temporal Action Recognition with Transformer", In Proc. International Conference on Image Processing (ICIP), pp.332-338, 2024. (pdf)
Satoshi Suzuki, Shotaro Tora, Ryo Masumura, "Scene Generalized Multi-View Pedestrian Detection with Rotation-based Augmentation and Regularization", n Proc. International Conference on Image Processing (ICIP), pp.596-602, 2024. (pdf)
Ryo Masumura, Naoki Makishima, Tomohiro Tanaka, Mana Ihori, Naotaka Kawata, Shota Orihashi, Kazutoshi Shinoda, Taiga Yamane, Saki Mizuno, Keita Suzuki, Satoshi Suzuki, Nobukatsu Hojo, Takafumi Moriya, Atsushi Ando , "Unified Multi-Talker ASR with and without Target-speaker Enrollment", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.727-731, 2024. (pdf)
Naoki Makishima, Naotaka Kawata, Mana Ihori, Tomohiro Tanaka, Shota Orihashi, Atsushi Ando, Ryo Masumura, "SOMSRED: Sequential Output Modeling for Joint Multi-talker Overlapped Speech Recognition and Speaker Diarization", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1660-1664, 2024. (pdf)
Keita Suzuki, Nobukatsu Hojo, Kazutoshi Shinoda, Saki Mizuno, Ryo Masumura, "Participant-Pair-Wise Bottleneck Transformer for Engagement Estimation from Video Conversation", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.4079-4083, 2024. (pdf)
Kazutoshi Shinoda, Nobukatsu Hojo, Saki Mizuno, Keita Suzuk, Satoshi Kobashikawa, Ryo Masumura, "Learning from Multiple Annotator Biased Labels in Multimodal Conversation", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.4089-4093, 2024. (pdf)
Atsushi Ando, Takafumi Moriya, Shota Horiguchi, Ryo Masumura, "Factor-Conditioned Speaking-Style Captioning", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.782-786, 2024. (pdf)
Takafumi Moriya, Takanori Ashihara, Masato Mimura, Hiroshi Sato, Kohei Matsuura, Ryo Masumura, Taichi Asami, "Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.7465-7469, 2024. (pdf)
Saki Mizuno, Nobukatsu Hojo, Kazutoshi Shinoda, Keita Suzuki, Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Naotaka Kawata, Satoshi Kobashikawa, Ryo Masumura, "Talking Face Generation for Impression Conversion Considering Speech Semantics", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.8411-8415, 2024.
Keita Suzuki, Satoshi Suzuki, Ryo Masumura, Naoki Makishima, Atsushi Ando, "Multi-region CNN-Transformer for Micro-gesture Recognition in Face and Upper Body", In Proc. ACM Multimedia Asia Conference (MM Asia), Article No.89, 2023. (pdf)
Satoshi Suzuki, Shin'ya Yamaguchi, Shoichiro Takeda, Sekitoshi Kanai, Naoki Makishima, Atsushi Ando, Ryo Masumura, "Adversarial Finetuning with Latent Representation Constraint to Mitigate Accuray-Robustness Tradeoff", In Proc. International Conference on Computer Vision (ICCV), pp.4390-4401, 2023. (pdf) (arxiv)
Shota Orihashi, Yoshihiro Yamazaki, Mihiro Uchida, Akihiko Takashima, Ryo Masumura, "Distilling Knowledge of Bidirectional Language Model for Scene Text Recognition", In Proc. International Conference on Image Processing (ICIP), pp.2165-2169, 2023. (pdf)
Satoshi Suzuki, Taiga Yamane, Naoki Makishima, Keita Suzuki, Atsushi Ando, Ryo Masumura, "ONDA-DETR: Online Domain Adaptation for Detection Transformers with Self-Training Framework", In Proc. International Conference on Image Processing (ICIP), pp.1780-1784, 2023. (pdf)
Mihiro Uchida, Shota Orihashi, Akihiko Takashima, Yoshihiro Yamazaki, Ryo Masumura, "Open-Set Recognition for Facial-Expression Recognition", In Proc. International Conference on Image Processing (ICIP), pp.780-784, 2023. (pdf)
Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura, "Retrieval, Masking, and Generation: Feedback Comment Generation using Masked Comment Examples", In Proc. International Conference on Natural Language Generation (INLG): Generation Challenges, pp.60-67, 2023.
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, "Text-to-Text Pre-Training with Paraphrasing for Improving Transformer-based Image Captioning", In Proc. European Signal Processing Conference (EUSIPCO), pp.516-520, 2023.
Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando, "End-to-End Joint Target and Non-Target Speakers ASR", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 2903-2907, 2023. (pdf)
Naoki Makishima, Keita Suzuki, Satoshi Suzuki, Atsushi Ando, Ryo Masumura, "Joint Autoregressive Modeling of End-to-End Multi-Talker Overlapped Speech Recognition and Utterance-level Timestamp Prediction", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.2913-2917, 2023. (pdf)
Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura, Saki Mizuno, Nabukatsu Hojo, "Transcribing Speech as Spoken and Written Dual Text Using an Autoregressive Model", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.461-465, 2023. (pdf)
Nobukatsu Hojo, Saki Mizuno, Satoshi Kobashikawa, Ryo Masumura, Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, "Audio-Visual Praise Estimation for Conversational Video based on Synchronization-Guided Multimodal Transformer", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.2663-2667, 2023. (pdf)
Takafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takanori Ashihara, Kohei Matsuura, Tomohiro Tanaka, Ryo Masumura, Atsunori Ogawa, Taichi Asami, "Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech Data", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.899-903, 2023. (pdf)
Hiroshi Sato, Ryo Masumura, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Kentaro Shinayama, Saki Mizuno, Mana Ihori, Tomohiro Tanaka, Nobukatsu Hojo, "Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.854-858, 2023. (pdf)
Yuki Kitagishi, Naohiro Tawara, Atsunori Ogawa, Ryo Masumura, Taichi Asami, "What are differences? Comparing DNN and human by their performance and characteristics in speaker age estimation", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1873-1877, 2023. (pdf)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Hiroshi Sato, Taiga Yamane, Takanori Ashihara, Kohei Matsuura, Takafumi Moriya, "Leveraging Language Embeddings for Cross-Lingual Self-Supervised Speech Representation Learning", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023.
Saki Mizuno, Nobukatsu Hojo, Satoshi Kobashikawa, Ryo Masumura, "Next-Speaker Prediction Based on Non-Verbal Information in Multi-Party Video Conversation", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023.
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Atsunori Ogawa, Marc Delcroix, Ryo Masumura, "Leveraging Large Text Corpora for End-to-End Speech Summarization", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023.
Takafumi Moriya, Takanori Ashihara, Hiroshi Sato, Kohei Matsuura, Tomohiro Tanaka, Ryo Masumura, "Improving Scheduled Sampling for Neural Transducer-based ASR", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023.
Nobukatsu Hojo, Satoshi Kobashikawa, Saki Mizuno, Ryo Masumura, "Modeling Lead-Lag Structure in Facial Expression Synchrony for Social-Psychological Outcome Prediction from Negotiation Interaction", In Proc. International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM), 2023.
Atsushi Ando, Ryo Masumura, Akihiko Takashima, Satoshi Suzuki, Naoki Makishima, Keita Suzuki, Takafumi Moriya, Takanori Ashihara, Hiroshi Sato, "On The Use of Modality-Specific Large-scale Pre-trained Encoders for Multimodal Sentiment Analysis", In Proc. IEEE Spoken Language Technology Workshop (SLT), 2022. (pdf)
Sayaka Shiota, Ryo Imaizumi, Ryo Masumura, Hitoshi Kiya, "Dialect-Aware Semi-Supervised Learning for End-To-End Multi-Dialect Speech Recognition", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.240-244, 2022. (pdf)
Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura, "Multi-Perspective Document Revision", In Proc. International Conference on Computational Linguistics (COLING), pp.6128-6138, 2022. (pdf)
Shota Orihashi, Yoshihiro Yamazaki, Mihiro Uchida, Akihiko Takashima, Ryo Masumura, "Fully Sharable Scene Text Recognition Modeling for Horizontal and Vertical Writing", In Proc. International Conference on Image Processing (ICIP), pp.2636-2640, 2022. (pdf)
Ryo Masumura, Yoshihiro Yamazaki, Saki Mizuno, Naoki Makishima, Mana Ihori, Mihiro Uchida, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Shota Orihashi, Takafumi Moriya, Nobukatsu Hojo and Atsushi Ando, "End-to-End Joint Modeling of Conversation History-Dependent and Independent ASR Systems with Multi-History Training", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.3218-3222, 2022. (pdf)
Tomohiro Tanaka, Ryo Masumura, Hiroshi Sato, Mana Ihori, Kohei Matsuura, Takanori Ashihara and Takafumi Moriya, "Domain Adversarial Self-Supervised Speech Representation Learning for Improving Unknown Domain Downstream Tasks", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 1066-1070, 2022. (pdf)
Akihiko Takashima, Ryo Masumura, Atsushi Ando, Yoshihiro Yamazaki, Mihiro Uchida and Shota Orihashi, "Interactive Co-Learning with Cross-Modal Transformer for Audio-Visual Emotion Recognition", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.4740-4744, 2022. (pdf)
Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoki Makishima, Mana Ihori, Tomohiro Tanaka and Ryo Masumura, "Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.996-1000, 2022. (pdf)
Naoki Makishima, Satoshi Suzuki, Atsushi Ando and Ryo Masumura, "Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.526-530, 2022. (pdf)
Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Yuki Saito, Yusuke Ijima, Ryo Masumura and Hiroshi Saruwatari, "Predicting VQVAE-based Character Acting Style from Quotation-Annotated Text for Audiobook Speech Synthesis", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.4551-4555, 2022. (pdf)
Fumio Nihei, Ryo Ishii, Yukiko Nakano, Kyosuke Nishida, Ryo Masumura, Atsushi Fukayama and Takao Nakamura, "Dialogue Acts Aided Important Utterance Detection Based on multiparty and multimodal information", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1086-1090, 2022. (pdf)
Nobuaktsu Hojo, Satoshi Kobashikawa, Saki Mizuno, Ryo Masumura, "Multimodal Negotiation Corpus with Various Subjective Assessments for Social-Psychological Outcome Prediction from Non-Verbal Cues", In Proc. Language Resources and Evaluation (LREC), pp.6791-6801, 2022. (pdf)
Atsushi Ando, Yumiko Murata, Ryo Masumura, Satoshi Suzuki, Naoki Makishima, Takafumi Moriya, Takanori Ashihara, Hiroshi Sato, "Customer Satisfaction Estimation using Unsupervised Representation Learning with Multi-Format Prediction Loss", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.8497-8501, 2022. (pdf)
Takafumi Moriya, Takanori Ashihara, Atsushi Ando, Hiroshi Sato, Tomohiro Tanaka, Kohei Matsuura, Ryo Masumura, Marc Delcroix, Takahiro Shinozaki, "Hybrid RNN-T/Attention-based Streaming ASR with Triggered Chunkwise Attention and Dual Internal Language Model Integration", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.8282-8286, 2022. (pdf)
Yoshihiro Yamazaki, Shota Orihashi, Ryo Masumura, Mihiro Uchida, Akihiko Takashima, "Audio Visual Scene-Aware Dialog Generation with Transformer-based Video Representations", In Proc. DSTC Workshop at AAAI Conference on Artificial Intelligence(AAAI), No.35, 2022. (arxiv)
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura, "Utilizing Resource-Rich Language Datasets for End-to-End Scene Text Recognition in Resource-Poor Languages", In Proc. ACM Multimedia Asia Conference (MM Asia), No. 41, pp.1-5, 2021. (arxiv) (pdf)
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura, "Hierarchical Knowledge Distillation for Dialogue Sequence Labeling", In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2021. (arxiv) (pdf)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, "Unified Autoregressive Modeling for Joint End-to-End Multi-Talker Overlapped Speech Recognition and Speaker Attribute Estimation", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 2591-2595, 2021. (pdf)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Takafumi Moriya, Takanori Ashihara, Shota Orihashi and Naoki Makishima, "Cross-Modal Transformer-Based Neural Correction Models for Automatic Speech Recognition", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 4059-4063, 2021. (pdf)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Shota Orihashi and Naoki Makishima, "End-to-End Rich Transcription-Style Automatic Speech Recognition with Semi-Supervised Learning", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 4458-4462, 2021. (pdf)
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi and Ryo Masumura, "Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks using Switching Tokens", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 776-780, 2021. (pdf)
Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi and Ryo Masumura, "Enrollment-less training for personalized voice activity detection", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 346-350, 2021. (pdf)
Takafumi Moriya, Tomohiro Tanaka, Takanori Ashihara, Tsubasa Ochiai, Hiroshi Sato, Atsushi Ando, Ryo Masumura, Marc Delcroix and Taichi Asami, "Streaming End-to-End Speech Recognition for Hybrid RNN-T/Attention Architecture", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 1787-1791, 2021. (pdf)
Ryo Masumura, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima and Shota Orihashi, "Hierarchical Transformer-based Large-Context End-to-End ASR with Large-Context Knowledge Distillation", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.5879-5883, 2021. (arxiv) (ieee)
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura, "MAPGN: MAsked Pointer-Generator Network for Sequence-to-Sequence Pre-training", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 7563-7567, 2021. (arxiv) (ieee)
Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura, "Audio-Visual Speech Separation using Cross-Modal Correspondence Loss", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 6673-6677, 2021. (arxiv) (ieee)
Atsushi Ando, Ryo Masumura, Hiroshi Sato, Takafumi Moriya, Takanori Ashihara, Yusuke Ijima, Tomoki Toda, "Speech Emotion Recognition based on Listener Adaptive Models", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 6274-6278, 2021. (ieee)
Takafumi Moriya, Takanori Ashihara, Tomohiro Tanaka, Tsubasa Ochiai, Hiroshi Sato, Atsushi Ando, Yusuke Ijima, Ryo Masumura, Yusuke Shinohara, "SIMPLEFLAT: A Simple Whole-Network Pre-Training Approach for RNN Transducer-Based End-to-End Speech Recognition", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 5664-5668, 2021. (ieee)
Ryo Masumura, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima and Shota Orihashi, "Large-Context Conversational Representation Learning: Self-Supervised Learning for Conversational Documents" In Proc. IEEE Spoken Language Technology Workshop (SLT), 1012-1019, 2021. (arxiv) (ieee)
Mana Ihori, Ryo Masumura, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima and Shota Orihashi, "Memory Attentive Fusion: External Language Model Integration for Transformer-based Sequence-to-Sequence Model", In Proc. International Conference on Natural Language Generation (INLG), 1-6, 2020. (arxiv) (pdf)
Ryo Masumura, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Takanori Ashihara, "End-to-End Automatic Speech Recognition with Deep Mutual Learning", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 632-637, 2020. (arxiv) (ieee)
Akihiko Takashima, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura, "Unsupervised Domain Adversarial Training in Angular Space for Facial Expression Recognition", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 1054-1059, 2020. (ieee)
Ryo Imaizumi, Ryo Masumura, Sayaka Shiota, Hitoshi Kiya, "Dialect-Aware Modeling for End-to-End Japanese Dialect Speech Recognition", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 297-301, 2020. (ieee)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, "Phoneme-to-Grapheme Conversion Based Large-Scale Pre-Training for End-to-End Automatic Speech Recognition", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 2822-2826, 2020. (pdf)
Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Ryo Masumura, "Unsupervised Domain Adaptation for Dialogue Sequence Labeling Based on Hierarchical Adversarial Training", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 1575-1579, 2020. (pdf)
Yuma Koizumi, Ryo Masumura, Kyosuke Nishida, Masahiro Yasuda and Shoichiro Saito, "A Transformer-based Audio Captioning Model with Keyword Estimation", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 1977-1981, 2020. (pdf)
Yuki Yamashita, Tomoki Koriyama, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Ryo Masumura and Hiroshi Saruwatari, "Investigating Effective Additional Contextual Factors in DNN-based Spontaneous Speech Synthesis", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 3201-3205, 2020. (pdf)
Takafumi Moriya, Tsubasa Ochiai, Shigeki Karita, Hiroshi Sato,Tomohiro Tanaka, Takanori Ashihara, Ryo Masumura, Yusuke Shinohara, Marc Delcroix, "Self-Distillation for Improving CTC-Transformer-based ASR Systems ", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.546-550, 2020. (pdf)
Ryo Imaizumi, Ryo Masumura, Sayaka Shiota, Hitoshi Kiya "Sequence-To-One Neural Networksfor Japanese Dialect Speech Classification" In Proc. IEEE Global Conference on Consumer Electronics (GCCE), pp. 474-476, 2020. (pdf)
Mana Ihori, Akihiko Takashima, Ryo Masumura , "Parallel Corpus for Japanese Spoken-to-Written Style Conversion", In Proc. Language Resources and Evaluation (LREC), pp.6346-6353, 2020. (pdf)
Takashi Kodama, Ryuichiro Higashinaka, Koh Mitsuda, Ryo Masumura, Yushi Aono, Ryuta Nakamura, Noritake Adachi, Hidetoshi Kawabata, "Generating Responses that Reflect Meta Information in User-Generated Question Answer Pairs", In Proc. Language Resources and Evaluation (LREC), pp.5433-5441, 2020. (pdf)
Yuki Yamashita, Tomoki Koriyama, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari, "DNN-based Speech Synthesis Using Abundant Tags of Spontaneous Speech Corpus", In Proc. Language Resources and Evaluation (LREC), pp.6438-6443, 2020. (pdf)
Ryo Masumura, Mana Ihori, Akihiko Takashima, Takafumi Moriya, Atsushi Ando, Yusuke Shinohara, "Sequence-level Consistency Training for Semi-Supervised End-to-End Automatic Speech Recognition", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.7049-7053, 2020. (pdf)
Mana Ihori, Akihiro Takashima, Ryo Masumura, "Large-Context Pointer-Generator Networks for Spoken-to-Written Style Conversion", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.8184-8188, 2020. (pdf)
Takafumi Moriya, Hiroshi Sato, Tomohiro Tanaka, Takanori Ashihara, Ryo Masumura, Yusuke Shinohara, "Distilling Attention Weights for CTC-based ASR Systems", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 6889-6893, 2020. (pdf)
Ryo Masumura, Mana Ihori, Tomohiro Tanaka, Itsumi Saito, Kyosuke Nishida, Takanobu Oba, "Generalized Large-Context Language Models based on Forward-Backward Hierarchical Recurrent Encoder-Decoder Models", In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp.554-551, 2019. (pdf)
Ryo Masumura, Mana Ihori, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Takanobu Oba, Ryuichiro Higashinaka, "Improving Speech-Based End-of-Turn Detection via Cross-Modal Representation Learning with Punctuated Text Data", In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp.1062-1069, 2019. (pdf)
Ryo Masumura, Yusuke Ijima, Satoshi Kobashikawa, Takanobu Oba, Yushi Aono, "Can We Simulate Generative Process of Acoustic Modeling Data? Towards Data Restoration for Acoustic Modeling", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.655-661, 2019. (pdf)
Tomohiro Tanaka, Ryo Masumura, Takafumi Moriya, Takanobu Oba, Yushi Aono, "Disfluency Detection Based on Speech-Aware Token-by-Token Sequence Labeling with BLSTM-CRFs and Attention Mechanisms", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.1009-1013, 2019. (pdf)
Hiroshi Sato, Takafumi Moriya, Yusuke Shinohara, Ryo Masumura, Takaaki Fukutomi, Kiyoaki Matsui, Takanori Ashihara, Yoshikazu Yamaguchi, Yushi Aono , "Revisiting Dynamic Adjustment of Language Model Scaling Factor for Automatic Speech Recognition", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.186-191, 2019. (pdf)
Hosana Kamiyama, Atsushi Ando, Ryo Masumura, Satoshi Kobashikawa, Yushi Aono, "Likability Estimation of Call-center Agents by Suppressing Annotator Variability", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.911-916, 2019. (pdf)
Hosana Kamiyama, Atsushi Ando, Ryo Masumura, Satoshi Kobashikawa, Yushi Aono, "Urgent Voicemail Detection Focused on Long-term Temporal Variation", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.917-921, 2019. (pdf)
Ryo Masumura, Kiyoaki Matsui, Yuma Koizumi, Takaaki Fukutomi, Takanobu Oba, Yushi Aono, "Context-Aware Neural Voice Activity Detection Using Auxiliary Networks for Phoneme Recognition, Speech Enhancement and Acoustic Scene Classification ", In Proc. European Signal Processing Conference (EUSIPCO), 2019. (pdf)
Ryo Masumura, Hiroshi Sato, Tomohiro Tanaka, Takafumi Moriya, Yusuke Ijima, Takanobu Oba, "End-to-End Automatic Speech Recognition with a Reconstruction Criterion Using Speech-to-Text and Text-to-Speech Encoder-Decoders", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1606-1610, 2019. (pdf)
Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Hosana Kamiyama,Takanobu Oba, Satoshi Kobashikawa, Yushi Aono,"Improving Conversation-Context Language Models with Multiple Spoken Language Understanding Models", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.834-838, 2019. (pdf)
Tomohiro Tanaka, Ryo Masumura, Takafumi Moriya, Takanobu Oba, Yushi Aono, "A Joint End-to-End and DNN-HMM Hybrid Automatic Speech Recognition System with Transferring Shared Knowledge", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.2210-2214, 2019. (pdf)
Takafumi Moriya, Jian Wang, Tomohiro Tanaka, Ryo Masumura, Yusuke Shinohara, Yoshikazu Yamaguchi, Yushi Aono, "Joint Maximization Decoder with Neural Converters for Fully Neural Network-based Japanese Speech Recognition", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.4410-4414, 2019. (pdf)
Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, "Speech Emotion Recognition based on Multi-Label Emotion Existence Model", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 2818-2822, 2019. (pdf)
Satoshi Kobashikawa, Atushi Odakura, Takao Nakamura, Takeshi Mori, Kimitaka Endo, Takafumi Moriya, Ryo Masumura, Yushi Aono, Nobuaki Minematsu, "Does Speaking Training Application with Speech Recognition Motivate Junior High School Students in Actual Classroom? -- A Case Study". In Proc. ISCA Workshop on Speech and Language Technology in Education (SLaTE), pp. 119-123, 2019. (pdf)
Ryo Masumura, Tomihiro Tanaka, Takafumi Moriya, Yusuke Shinohara, Takanobu Oba, Yushi Aono, "Large Context End-to-End Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-Decoder Models", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019. (pdf)
Ryo Masumura, Yusuke Shinohara, Ryuichiro Higashinaka, Yushi Aono, "Adversarial Training for Multi-task and Multi-lingual Joint Modeling of Utterance Intent Classification", In Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.633-639, 2018. (pdf)
Ryo Masumura, Suguru Kabashima, Takafumi Moriya, Satoshi Kobashikawa, Yoshikazu Yamaguchi, Yushi Aono, "Relevant Phonetic-aware Neural Acoustic Models using Native English and Japanese Speech for Japanese-English Automatic Speech Recognition", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.1435--1439, 2018. (pdf)
Ryo Masumura, Setsuo Yamada, Tomohiro Tanaka, Atsushi Ando, Hosana Kamiyama, Yushi Aono, "Online Call Scene Segmentation of Contact Center Dialogues based on Role Aware Hierarchical LSTM-RNNs", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.811-815, 2018. (pdf)
Tomohiro Tanaka, Ryo Masumura, Takafumi Moriya, Yushi Aono, "Neural Speech-to-Text Language Models for Rescoring Hypotheses of DNN-HMM Hybrid Automatic Speech Recognition Systems", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.196--200, 2018. (pdf)
Takafumi Moriya, Ryo Masumura, Taichi Asami, Yusuke Shinohara, Marc Delcroix, Yoshikazu Yamaguchi, Yushi Aono, "Progressive Neural Network-based Knowledge Transfer in Acoustic Models", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.998--1002, 2018. (pdf)
Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Hirokazu Masataki, Yushi Aono, "Role Play Dialogue Aware Language Models based on Conditional Hierarchical Recurrent Encoder-Decoder", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), 1259-1263, 2018 (pdf)
Tomohiro Tanaka, Ryo Masumura, Hirokazu Masataki, Yushi Aono, "Neural Error Corrective Language Models for Automatic Speech Recognition" , In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.401-405, 2018. (pdf)
Atsushi Ando, Reine Asakawa, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, "Automatic question detection from acoustic and phonetic features using feature-wise pre-training", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1731-1735, 2018. (pdf)
Ryo Masumura, Tomohiro Tanaka, Ryuichiro Higashinaka, Hirokazu Masataki, Yushi Aono, "Multi-task and Multi-lingual Joint Learning of Neural Lexical Utterance Classification based on Partially-shared Modeling", In Proc. International Conference on Computational Linguistics (COLING), pp.3586-3596, 2018. (pdf)
Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Ryuichiro Higashinaka, Yushi Aono, "Neural Dialogue Context Online End-of-Turn Detection", In Proc. Annual SIGdial Meeting on Discourse and Dialogue (SIGDIAL), pp.224-228, 2018. (pdf)
Ryo Masumura, Yusuke Ijima, Taichi Asami, Hirokazu Masataki, Ryuichiro Higashinaka, "Neural ConfNet Classification: Fully Neural Network based Spoken Utterance Classification Using Word Confusion Networks", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.6039-6043, 2018.
Atsushi Ando, Satoshi Kobashikawa, Hosana Kamiyama, Ryo Masumura, Yusuke Ijima, Yushi Aono, "Soft-Target Training with Ambiguous Emotional Utterances for DNN-based Speech Emotion Classification", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.4964-4968, 2018.
Ryo Masumura, Taichi Asami, Hirokazu Masataki, Yushi Aono, "Joint Unsupervised Adaptation of N-gram and RNN Language Models via LDA-based Hybrid Mixture Modeling", In Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp.1588-1591, 2017. (pdf)
Ryo Masumura, Taichi Asami, Hirokazu Masataki, Kugatsu Sadamitsu, Kyosuke Nishida, Ryuichiro Higashinaka, "Hyperspherical Query Likelihood Models with Word Embeddings", In Proc. International Joint Conference on Natural Language Processing (IJCNLP), pp.210-216, 2017. (pdf)
Itsumi Saito, Jun Suzuki, Kyosuke Nishida, Kugatsu Sadamitsu, Satoshi Kobashikawa, Ryo Masumura, Yuji Matsumoto, Junji Tomita, "Improving Neural Text Normalization with Data Augmentation at Character- and Morphological Levels", In Proc. International Joint Conference on Natural Language Processing (IJCNLP), pp.257-262, 2017. (pdf)
Ryo Masumura, Taichi Asami, Hirokazu Masataki, Ryo Ishii, Ryuichiro Higashinaka, "Online End-of-Turn Detection from Speech based on Stacked Time-Asynchronous Sequential Networks", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1661-1665, 2017. (pdf)
Naoki Sawada, Ryo Masumura, Hiromitsu Nishizaki, "Parallel Hierarchical Attention Networks with Shared Memory Reader for Multi-Stream Conversational Document Classification", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.3311-3315, 2017. (pdf)
Yusuke Ijima, Nobukatsu Hojo, Ryo Masumura, Taichi Asami, "Prosody Aware Word-level Encoder Based on BLSTM-RNNs for DNN-based Speech Synthesis ", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.764-768, 2017. (pdf)
Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, "Hierarchical LSTMs with Joint Learning for Estimating Customer Satisfaction from Contact Center CallIs", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1716-1720, 2017. (pdf)
Ryo Masumura, Taichi Asami, Hirokazu Masataki, Yushi Aono, "Parallel Phonetically Aware DNNs and LSTM-RNNs for Frame-by-Frame Discriminative Modeling of Spoken Language Identification", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 5260-5264, 2017. (pdf)
Taichi Asami, Ryo Masumura, Hirokazu Yamaguchi, Hirokazu Masataki, Yushi Aono, "Domain Adaptation of DNN Acoustic Models using Knowledge Distillation", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.5185-5189, 2017. (pdf)
Ryo Masumura, Taichi Asami, Hirokazu Masataki, Sumitaka Sakauchi, Yushi Aono, "Language Identification based on Generative Modeling of Posteriorgram Sequences Extracted from Frame-by-Frame DNNs and LSTM-RNNs", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.3275-3279, 2016. (pdf)
Taichi Asami, Ryo Masumura, Yushi Aono, Koichi Shinoda, "Recurrent Out-of-Vocabulary Word Detection Using Distribution of Features", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1320-1324, 2016. (pdf)
Kenta Shiga, Takashi Nose, Akinori Ito, Ryo Masumura, Hirokazu Masataki, "Automatic Generation of Proper Noun Entries in a Speech Recognizer for Local Information Recognition", In Proc. Western Pacific Acoustics Conference (WESPAC), pp.486-490, 2016. (pdf)
Atsushi Otsuka, Toru Hirano, Chiaki Miyazaki, Ryo Masumura, Ryuichiro Higashinaka, Toshiro Makino, Yoshihiro Matsuo, "Discourse Relation Recognition by Comparing Various Units of Sentence Expression with Recursive Neural Network", In Proc. Pacific Asia Conference on Language, Information and Computation (PACLIC), pp.63-72, 2015. (pdf)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito, "Hierarchical Latent Words Language Models for Robust Modeling to Out-Of Domain Tasks", In Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.1896-1901, 2015. (pdf) (poster)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito, "Combinations of Various Language Model Technologies including Data Expansion and Adaptation in Spontaneous Speech Recognition", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.463-467, 2015. (pdf) (slide)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito, "Latent Words Recurrent Neural Network Language Models", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.2380-2384, 2015. (pdf) (slide)
Taichi Asami, Ryo Masumura, Hirokazu Masataki, Manabu Okamoto, Sumitaka Sakauchi, "Training Data Selection for Acoustic Modeling via Submodular Optimization of Joint Kullback-Leibler Divergence", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.3645-3649, 2015. (pdf)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, "Mixture of Latent Words Language Models for Domain Adaptation", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1425-1429, 2014. (pdf) (poster)
Taichi Asami, Ryo Masumura, Hirokazu Masataki, Sumitaka Sakauchi, "Read and Spontaneous Speech Classification Based on Variance of GMM Supervectors", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.2375-2379, 2014. (pdf)
Ryo Masumura, Takanobu Oba, Hirokazu Masataki, Osamu Yoshioka, Satoshi Takahashi, "Role Play Dialogue Topic Model for Language Model Adaptation in Multi-Party Conversation Speech Recognition", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 4873-4877, 2014. (pdf) (poster)
Ryo Masumura, Hirokazu Masataki, Takanobu Oba, Osamu Yoshioka, Satoshi Takahashi, "Viterbi Decoding for Latent Words Language Models Using Gibbs Sampling", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.3429-3433, 2013. (pdf)
Ryo Masumura, Hirokazu Masataki, Takanobu Oba, Osamu Yoshioka, Satoshi Takahashi, "Use of Latent Words Language Models in ASR: A Sampling-based Implementation", In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.8445-8449, 2013. (pdf)
Ryo Masumura, Seongjun Hahm, Akinori Ito, "Training a Language Model Using Webdata for Large Vocabulary Japanese Spontaneous Speech Recognition", In Proc. InterspeechAnnual Conference of the International Speech Communication Association (INTERSPEECH), pp.1465-1468, 2011. (pdf)
Ryo Masumura, Seongjun Hahm, Akinori Ito, "Language Model Expansion Using Webdata for Spoken Document Retrieval", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.2133-2136, 2011. (pdf)
Ryo Masumura, Akinori Ito, Yu Uno, Masashi Ito, Shozo Makino, "Document expansion using relevant web documents for spoken document retrieval", International Conference on Natural Language Processing and Knowledge Engineering (NLP-KE), pp.1-8, 2010. (pdf) (slide)
Akinori Ito, Yu Uno, Ryo Masumura, Shozo Makino, "Relevant document retrieval using a spoken document", In. Proc. International Symposium on Communications and Information Technology (ISCIT), pp.1483-1488, 2009. (pdf)
Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Ryo Masumura, "Generic Speech Enhancement with Self-Supervised Representation Space Loss", Frontiers in Signal Processing, vol.5, 2025.
Keita Suzuki, Nobukatsu Hojo, Kazutoshi Shinoda, Saki Mizuno, Ryo Masumura, "Data Stream-pairwise Bottleneck Transformer for Engagement Estimation from Video Conversation", Frontiers in Artificial Intelligence, vol.8, 2025.
Satoshi Suzuki, Shoichiro Takeda, Naoki Makishima, Atsushi Ando, Ryo Masumura, Hayaru Shouno, "Knowledge Transferred Fine-Tuning: Convolutional Neural Network Is Born Again With Anti-Aliasing Even in Data-Limited Situation", IEEE Access, Vol.10, pp.68384-68396, 2022.
Ryo Imaizumi, Ryo Masumura, Sayaka Shiota, Hitoshi Kiya, "End-to-end Japanese Multi-dialect Speech Recognition and Dialect Identification with Multi-task Learning", APSIPA Transactions on Signal and Information Processing, Vol.11, No.1, 2022.
Ryo Masumura, Taichi Asami, Takanobu Oba, Sumitaka Sakauchi, "Hierarchical Latent Words Language Models for Automatic Speech Recognition", Journal of Information Processing, Vol.29, pp.360-369, 2021. (pdf)
Takashi Kodama, Ryuichiro Higashinaka, Koh Mitsuda, Ryo Masumura, Yushi Aono, Ryuta Nakamura, Noritake Adachi and Hidetoshi Kawabata, "Collection of Meta Information with User-Generated Question Answer Pairs and its Reflection for Improving Expressibility in Response Generation", Journal of Natural Language Processing, Vol.28, 2021.
Tomohiro Tanaka, Ryo Masumura, Takanobu Oba, "Neural Candidate-Aware Language Models for Speech Recognition", Computer Speech and Language, vol.66, 2020. (pdf)
Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, Tomoki Toda, "Customer Satisfaction Estimation in Contact Center Calls Based on a Hierarchical Multi-Task Model", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.28, pp.715-728, 2020.
Hosana Kamiyama, Atsushi Ando, Ryo Masumura, Satoshi Kobashikawa, Yushi Aono, "Likability estimation for contact center agents by selecting annotators based on binomial distribution", Acoustical Science and Technology, Acousitc Letters, vol.41, no.6, pp.826-828, 2020. (pdf)
Ryo Masumura, Taichi Asami, Takanobu Oba, Sumitaka Sakauchi, Akinori Ito, "Latent Words Recurrent Neural Network Language Models for Automatic Speech Recognition", IEICE Transaction on Information and Systems, Vol.E102-D, No.12, pp.2257-2267, 2019. (pdf)
Taichi Asami, Ryo Masumura, Yushi Aono, Koichi Shinoda, "Recurrent out-of-vocabulary word detection based on distribution of features", Computer Speech and Language, Vol.58, pp.247-259, 2019. (pdf)
Ryuichio Higashinaka, Ryo Masumura, "Application of Deep Learning to Dialogue Systems", Journal of the Japanese Society for Artificial Intelligence, vol.37, no.4, pp.460-466, 2019. (pdf)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito, "Viterbi Approximation of Latent Words Language Models for Automatic Speech Recognition", Journal of Information Processing, Vol.27, No.2, pp.168-176, 2019. (pdf)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito, "Domain Adaptation based on Mixture of Latent Words Language Models for Automatic Speech Recognition", IEICE Transaction on Information and Systems, Vol.E101-D, No.6, pp.1581-1590, 2018. (pdf)
Toshitatsu Takao, Ryo Masumura, Sumitaka Sakauchi, Yoshiko Ohara, Elif Bilgic, Eiji Umegaki, Hiromu Kutsumi, Takeshi Azuma, "New report preparation system for endoscopic procedures using speech recognition technology", Endoscopy International Open, vol.06, E676-E687, 2018. (pdf)
Ryo Masumura, "Language modeling and spoken language understanding based on deep learning", The Journal of The Acoustical Society of Japan, Vol. 73, No.1 pp. 39-46, 2017. (pdf)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Satoshi Takahashi, "N-gram Approximation of Latent Words Language Models for Domain Robust Automatic Speech Recognition", IEICE Transaction on Information and Systems, Vol.E99-D, No.10, pp.2462-2470, 2016. (pdf)
Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito "Investigation of Combining Various Major Language Model Technologies including Data Expansion and Adaptation", IEICE Transaction on Information and Systems, Vol.E99-D, No.10, pp2452-2461, 2016. (pdf)
庵 愛, 増村 亮, 牧島 直輝, 田中 智大, 高島 瑛彦, 折橋 翔太, "ニューラル系列変換のためのTransformer の注意機構を活用した外部記憶融合", 言語処理学会第27回年次大会, 2021. (to be appeared)
庵 愛, 牧島 直輝, 田中 智大, 高島 瑛彦, 折橋 翔太, 増村 亮, "Pointer-Generator Network に特化した自己教師あり事前学習に基づくテキストスタイル変換", 日本音響学会2021年春季講演論文集, 2021.
田中 智大, 増村 亮, 庵 愛, 高島 瑛彦, 森谷 崇史, 芦原 孝典, 折橋 翔太, 牧島 直輝, "Cross-Modal Transformer に基づく音声認識誤り訂正の検討", 日本音響学会2021年春季講演論文集, 2021.
牧島 直輝, 庵 愛, 高島 瑛彦, 田中 智大, 折橋 翔太, 増村 亮, "マルチモーダル音源分離のためのモーダル間対応学習", 日本音響学会2021年春季講演論文集, 2021.
今泉 遼, 増村 亮, 塩田 さやか, 貴家 仁志, "マルチタスク学習による方言識別を考慮した End-to-End 日本語方言音声認識", 日本音響学会2021年春季講演論文集, 2021.
森谷 崇史, 落合 翼, 苅田 成樹, 佐藤 宏, 田中 智大, 芦原 孝典, 増村 亮, 篠原 雄介, デルクロア マーク, "CTC-Transformer 音声認識における自己知識蒸留の検討", 日本音響学会2021年春季講演論文集, 2021.
中田 亘, 郡山 知樹, 高道 慎之介, 井島 勇祐, 増村 亮, 猿渡 洋, "言語モデルによる文横断情報を用いたオーディオブック音声合成の検討", 日本音響学会2021年春季講演論文集, 2021.
折橋 翔太, 牧島 直輝, 庵 愛, 高島 瑛彦, 田中 智大, 増村, 亮, "発話単位系列ラベリングの教師なしドメイン適応 ~ コンタクトセンタタスクへの適用 ~", 信学技報, vol.XXX, 2021.
増村 亮, 牧島 直輝, 庵愛, 高島 瑛彦, 田中 智大, 折橋 翔太, "大規模な外部言語資源と発音辞書を用いた End-to-End 音声認識の事前学習の検討", 日本音響学会2020年秋季講演論文集, 2020.
庵 愛, 増村 亮, 牧島 直輝, 田中 智大, 高島 瑛彦, 折橋 翔太, "Transformer に基づく話し言葉・書き言葉変換における外部言語モデルの統合", 日本音響学会2020年秋季講演論文集, 2020.
小泉 悠馬, 増村 亮, 西田 京介, 安田 昌弘, 齊藤 翔一郎, "キーワード推定を内包したオーディオキャプション法", 日本音響学会2020年秋季講演論文集, 2020.
今泉 遼, 増村 亮, 塩田 さやか, 貴家 仁志, "方言ラベルを補助特徴量とした End-to-End 日本語方言音声認識", 日本音響学会2020年秋季講演論文集, 2020.
増村 亮, 牧島 直輝, 庵愛, 高島 瑛彦, 田中 智大, 折橋 翔太, "画像キャプション生成のためのパラフレーズ生成タスクに基づくクロスモーダル事前学習", 画像の認識・理解シンポジウム MIRU2020, IS3-1-2, 2020.
高島 瑛彦, 牧島 直輝, 庵 愛, 田中 智大, 折橋 翔太, 増村 亮, "表情認識のための角度空間損失を用いた敵対的教師なしドメイン適応", 画像の認識・理解シンポジウム MIRU2020, IS2-3-34, 2020.
増村 亮, 庵 愛, 高島 瑛彦, 森谷 崇史, 安藤 厚志, 篠原 雄介, "半教師あり End-to-End 音声認識のための系列単位 Consistency Training の検討", 日本音響学会2020年春季講演論文集, 2020.
増村 亮, 庵 愛, 高島 瑛彦, 田中 智大, 芦原 孝典, 大庭 隆伸, "Deep Mutual Learning に基づくEnd-to-End 音声認識の検討", 日本音響学会2020年春季講演論文集, 2020.
森谷 崇史, 佐藤 宏, 田中 智大, 芦原 孝典, 増村 亮, 篠原 雄介, "音声認識におけるEncoder-Decoder モデルの注意重みを用いた CTC モデルへの知識蒸留", 日本音響学会2020年春季講演論文集, 2020.
芦原 孝典, 田中 智大, 森谷 崇史, 増村 亮, 篠原 雄介, 柏野 牧夫, "錯聴を利用した音声認識のためのデータ拡張:時間反転音声に基づく検討", 日本音響学会2020年春季講演論文集, 2020.
庵 愛, 高島 瑛彦, 増村 亮, "日本語文章のための話し言葉・書き言葉変換コーパス", 言語処理学会第26回年次大会, pp.157-160, 2020.
増村 亮, 庵 愛, 高島 瑛彦, "会話ドキュメントに対する発話単位系列ラベリングのための自己教師あり事前学習", 言語処理学会第26回年次大会, pp.832-835, 2020.
東中竜一郎, 光田航, 増村亮, 斉藤いつみ, 青野裕司, "雑談要約技術に向けた取り組み", 言語処理学会第26回年次大会, pp.1519-1522, 2020.
今泉 遼, 増村 亮, 塩田 さやか, 貴家 仁志, "系列分類型ニューラルネットワークを用いた日本語方言識別の検討", 信学技報, vol.XXX, 2020.
芦原 孝典, 田中 智大, 森谷 崇史, 増村 亮, 篠原 雄介, 柏野 牧夫, "時間反転音声を用いた音声認識のためのデータ拡張", 信学技報, vol.XXX, 2020.
山下 優樹, 郡山 知樹, 齋藤 佑樹, 高道 慎之介, 井島 勇祐, 増村 亮, 猿渡 洋, "DNNに基づく話し言葉音声合成における追加コンテキストの効果" 信学技報, vol.XXX, 2020.
森谷 崇史, 佐藤 宏, 田中 智大, 芦原 孝典, 増村 亮, 篠原 雄介, "音声認識におけるEncoder-Decoderモデルの注意重みを用いたCTCモデルへの知識蒸留の評価", 信学技報, vol.XXX, 2020.
庵 愛, 高島 瑛彦, 増村 亮, "長期文脈を考慮したPointer-Generator Networkに基づく話し言葉・書き言葉変換", 信学技報, vol.XXX, 2020.
増村 亮, 松井 清彰, 小泉 悠馬, 大庭 隆伸, "複数の補助ネットワークを利用したニューラル音声区間検出の大規模学習の検討", 信学技報, vol.XXX, 2020.
神山 歩相名, 安藤 厚志, 増村 亮, 小橋川 哲, 青野 裕司, "話速の変動を捉える特徴量に基づく留守録音声の緊急度推定", 日本音響学会2019年秋季講演論文集, 2019.
田中 智大, 増村 亮, 森谷 崇史, 大庭 隆伸, 青野 裕司, "共有ネットワークに基づく DNN-HMM ハイブリッド音声認識システムと End-to-End 音声認識システムの統合モデリングの検討", 日本音響学会2019年秋季講演論文集, 2019.
安藤 厚志, 増村 亮, 神山 歩相名, 小橋川 哲, 青野 裕司, 戸田 智基 "コンタクトセンタ顧客満足度推定におけるドメイン適応の検討", 日本音響学会2019年秋季講演論文集, 2019.
安藤 厚志, 増村 亮, 神山 歩相名, 小橋川 哲, 青野 裕司, "マルチラベル感情表出推定に基づく音声感情分類", 信学技報, vol.XXX, 2019.
増村 亮, 田中 智大, 斉藤 いつみ, 西田 京介, 大庭 隆伸, "方向談話コンテキスト言語モデルに基づく反復リスコアリング", 情報処理学会研究報告,Vol.2019-SLP-128-10, 2019.
増村 亮, 田中 智大, 安藤 厚志, 大庭 隆伸, 青野 裕司, "条件付き階層再帰型エンコーダデコーダに基づく複数人会話音声認識向け言語モデル" 信学技報, vol.XXX, 2019.
神山 歩相名, 安藤 厚志, 増村 亮, 小橋川 哲, 青野 裕司, "アノテータのラベル付与能力を考慮した電話応対音声の好感度推定モデル学習", 信学技報, vol.XXX, 2019.
増村 亮, 田中 智大, 安藤 厚志, 石井 亮, 東中 竜一郎, 青野, 裕司, "対話コンテキストを扱うターン交替点検出の検討" 日本音響学会2019年春季講演論文集.
増村 亮, 田中 智大, 森谷 崇史, 篠原 雄介, 大庭隆伸, 青野, 裕司, "階層再帰型 Encoder-Decoder に基づく談話コンテキスト End-to-End 音声認識 " 日本音響学会2019年春季講演論文集.
田中 智大, 増村 亮, 大庭隆伸, 青野 裕司, "音響情報を利用した系列ラべリングに基づく非流暢性検出の検討" 日本音響学会2019年春季講演論文集.
神山 歩相名, 安藤 厚志, 増村 亮, 小橋川 哲, 青野 裕司, "ラベラーの安定性を考慮した潜在変数モデルに基づく電話応対の好感度推定", 日本音響学会2019年春季講演論文集.
増村 亮, 田中 智大, 安藤 厚志, 神山 歩相名, 大庭 隆伸, 青野 裕司, "対話コンテキストを考慮したニューラル通話シーン分割", 信学技報, vol.117, 2018.
増村 亮, 篠原 雄介, 東中, 竜一郎, 青野, 裕司, "複数言語複数タスクを扱う発話意図推定モデリングのための敵対的学習の検討", 情報処理学会研究報告, Vol.2018-NL-238-16, 2018.
増村 亮, 井島 勇祐, 小橋川 哲, 青野 裕司, "ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討 ", 日本音響学会2018年秋季講演論文集, 1-2-1, 2018.
増村 亮, 椛島 優, 森谷 崇史, 小橋川 哲, 山口 義和, 青野 裕司, "ネイティブ日本語とネイティブ英語の音声データを活用した日本人英語向けニューラル音響モデルの検討 ", 日本音響学会2018年秋季講演論文集, 1-2-2, 2018.
田中 智大, 増村 亮, 森谷 崇史, 青野 裕司, "End-to-end 音声認識システムによる認識仮説のリスコアリング", 日本音響学会2018年秋季講演論文集, 1-2-4, 2018.
安藤 厚志, 増村 亮, 神山 歩相名, 小橋川 哲, 青野 裕司, "Feature-wise pre-training を用いた音響・言語特徴からの質問発話検出", 日本音響学会2018年秋季講演論文集, 2-Q-5, 2018.
神山 歩相名, 安藤 厚志, 増村 亮, 小橋川 哲, 青野 裕司, "ラベラーの安定性を考慮した電話応対者の好感度推定", 日本音響学会2018年秋季講演論文集, 2-Q-6, 2018.
田中智大, 増村 亮, 青野裕司, "複数仮説を考慮したニューラル誤り訂正言語モデルの検討", 信学技報, vol.117, 2018.
東中 竜一郎, 石井 亮, 片山 太一, 増村 亮, 富田 準二, 川端 秀寿, 山口 絵美, 安達 敬武, "なりきり質問応答を用いた感情タグ付き発話データの収集と感情の自動推定", 映像情報メディア学会年次大会, 14B-5, 2018.
増村 亮, 井島 勇祐, 浅見 太一, 政瀧 浩和, 東中 竜一郎, "音声認識誤りに頑健なニューラル発話意図推定のための コンフュージョンネットワークの連続表現", 人工知能学会全国大会, 3G2-04, 2018. (pdf)
増村 亮, 東中 竜一郎, 政瀧 浩和, 青野 裕司, ”部分共有ネットワークに基づくニューラル発話意図推定の複数言語・複数タスク間での結合モデリング”, 言語処理学会第24回年次大会, 2018. (pdf)
田中 智大, 増村 亮, 政瀧 浩和, "音声認識におけるニューラル誤り訂正言語モデルの検討", 日本音響学会2018年春季講演論文集, 1-8-7, 2018.
森谷 崇史, 増村 亮, 浅見 太一, 篠原 雄介, デルクロア マーク, 山口 義和, 青野 裕司, "Progressive neural networksを応用した音響モデルの転移学習", 日本音響学会2018年春季講演論文集, 1-8-5, 2018.
安藤 厚志, 神山 歩相名, 小橋川 哲, 増村 亮, 青野 裕司, "複曖昧感情発話を活用したソフトターゲット学習に基づく音声感情分類", 日本音響学会2018年春季講演論文集, 2-8-5, 2018.
椛島 優, 張 昊宇, 齋藤大輔, 峯松信明, 小橋川 哲, 増村 亮, "日本人英語に観測される発音多様性に関するコーパスに基づく定量的分析", 信学技報, vol.117, no.517, SP2017-96, pp.69-74, 2018.
増村 亮, 浅見 太一, 政瀧 浩和, 青野 裕司, "複数言語の Senone ボトルネック特徴量を用いた深層音声言語識別の検討", 日本音響学会2017年秋季講演論文集, 2-10-6, 2017.
増村 亮, 井島 勇祐, 浅見 太一, 政瀧 浩和, 東中 竜一郎, "Confusion Network を用いた深層発話意図推定の検討", 日本音響学会2017年秋季講演論文集, 1-10-11, 2017.
澤田 直輝, 増村 亮, 西崎 博光, "コンタクトセンタ通話分類のための注意機構共有型ネットワーク", 日本音響学会2017年秋季講演論文集, 1-10-13, 2017.
安藤 厚志, 増村 亮, 神山 歩相名, 小橋川 哲, 青野 裕司, " 階層マルチタスク学習を用いたコンタクトセンタ通話からの顧客満足度推定", 日本音響学会2017年秋季講演論文集, 1-10-12, 2017.
澤田 直輝, 増村 亮, 西崎 博光, "マルチストリーム音声ドキュメント分類のためのParallel Hierarchical Attention Networkの検討", 情報処理学会研究報告,Vol.2017-SLP-116-1, 2017. (SLP研究会企業賞 受賞)
井島 勇祐, 北条 伸克, 増村 亮, 浅見 太一, "DNN音声合成のためのProsodic Word Embeddingの検討", 信学技報, 2017.
井島 勇祐, 北条 伸克, 増村 亮, 浅見 太一, "DNN 音声合成のための Prosody Aware Word-level Encoder の評価", 日本音響学会2017年秋季講演論文集, 1-R-43, 2017.
政瀧 浩和, 増村 亮, 浅見 太一, "Knowledge Distillation を用いた RNN 言語モデルのドメイン適応", 日本音響学会2017年秋季講演論文集, 2-Q-5, 2017.
増村 亮, 浅見 太一, 政瀧 浩和, 貞光九月, 西田京介, 東中竜一郎, "単語分散表現を用いた超球面空間における確率的言語モデル: 情報検索におけるクエリ尤度モデリングへの適用", 言語処理学会第23回年次大会, pp.346-349, 2017. (pdf)
増村 亮, 浅見 太一, 政瀧 浩和, 石井 亮, 東中 竜一郎, "複数の非同期特徴系列を用いた階層LSTMに基づくターン交替点検出の検討", 日本音響学会2017年春季講演論文集, 3-5-6, 2017.
政瀧 浩和, 増村 亮, "遺伝アルゴリズムを用いたN-gram言語モデルの平滑化パラメータ最適化の検討", 日本音響学会2017年春季講演論文集, 1-5-8, 2017.
増村 亮, 浅見 太一, 大庭 隆伸, 政瀧 浩和, 阪内澄宇, "潜在変数空間の階層構造化に基づくマルチドメインに頑健な言語モデルの検討", 日本音響学会2016年春季講演論文集, 2-1-15, 2016.
浅見 太一,増村 亮, 政瀧 浩和, 岡本 学, 阪内 澄宇, "結合KLダイバージェンスの劣モジュラ最適化に基づく音響モデルの学習データ選択", 信学技報, vol.115, no.184, SP2015-50, 2015.
増村 亮, 浅見 太一, 大庭 隆伸, 政瀧 浩和, 阪内 澄宇, 伊藤 彰則, "Latent Words Recurrent Neural Network 言語モデルの提案と音声認識への適用", 信学技報, vol.115, no.184, SP2015-50, pp.1-6, 2015. (slide)
増村 亮, 浅見 太一, 政瀧 浩和, 阪内 澄宇, "TANDEM-MLP特徴量の言語モデル化に基づく音声言語識別の検討", 信学技報, vol.115, no.146, SP2015-43, pp.43-48, 2015. (slide)
増村 亮, Sheri Sever, 浅見 太一, 政瀧 浩和, 阪内澄宇, "DNN事後確率系列の言語モデル化に基づく言語識別", 言語処理学会第21回年次大会, pp.916-919, 2015. (pdf) (poster) (言語処理学会 若手奨励賞 受賞)
増村 亮, 浅見 太一, 大庭 隆伸, 政瀧 浩和, 阪内澄宇, "n-gram 混合モデルとRNN 混合モデルの同時併用に基づく言語モデル教師なし適応の検討", 日本音響学会2015年春季講演論文集, 1-1-10, 2015. (slide)
浅見 太一, 増村 亮, 政瀧 浩和, 阪内澄宇, "音響特徴の発話間変動に着目した発話スタイル推定", 日本音響学会2015年春季講演論文集, 1-P-29, 2015.
増村 亮, 浅見 太一, 大庭 隆伸, 政瀧 浩和, 阪内澄宇, "言語モデリング技術の複数同時併用に対する日本語講義音声認識タスクでの評価", 日本音響学会2014年秋季講演論文集, 2-9-18, 2014. (poster)
増村 亮, 浅見 太一, 大庭 隆伸, 政瀧 浩和, 阪内澄宇, "Latent Words Language Model のクロス混合に基づく言語モデル適応", 日本音響学会2014年秋季講演論文集, 1-8-7, 2014. (slide)
増村 亮, 浅見 太一, 大庭 隆伸, 政瀧 浩和, 阪内 澄宇, "日本語話し言葉音声認識における複数言語モデリング技術併用時の性能評価", 信学技報, vol.114, no.151, SP2014-63, pp.1-6, 2014. (slide) (電気情報通信学会 音声研究会奨励賞 受賞)
増村 亮, 大庭 隆伸, 政瀧 浩和, 吉岡 理, 阪内澄宇, "潜在変数領域を考慮したLatent Words Language Model のドメイン適応", 日本音響学会2014年春季講演論文集, 2-4-2, 2014.
増村 亮, 芦原 孝典, 政瀧 浩和, 吉岡 理, 阪内 澄宇, 高橋敏, "ろう学校コミュニケーション支援のための教師発話認識に関する検討", 日本音響学会2014年春季講演論文集, 3-Q5-1, 2014.
松井 清彰, 増村 亮, 大庭 隆伸, 政瀧 弘和, 伊藤 彰則, "スムージング付きN-gram のタスク適応とモデル縮退との関係分析", 日本音響学会2014年春季講演論文集, 3-Q5-15, 2014.
増村 亮, 大庭 隆伸, 政瀧 弘和, 吉岡 理, 高橋 敏, "対話音声認識のための話者間のトピック共有に基づく言語モデル教師なし適応", 日本音響学会2013年秋季講演論文集, 1-8-16, 2013.
増村 亮, 大庭 隆伸, 政瀧 弘和, 吉岡 理, 高橋 敏, "Latent Words Language Model のViterbi 近似による音声認識", 日本音響学会2013年秋季講演論文集, 1-8-15, 2013.
増村 亮, 政瀧 弘和, 大庭 隆伸, 吉岡 理, 高橋 敏, "生成型アプローチによるLatent Words Language ModelのN-gram近似", 情報処理学会研究報告,Vol.2010-SLP-97-5, 2013. (pdf) (slide) (情報処理学会 山下記念研究賞 受賞)
増村 亮, 政瀧 弘和, 大庭 隆伸, 吉岡 理, 高橋 敏, "Latent Words Language Model に基づくN-gram 言語モデル", 日本音響学会2013年春季講演論文集, , 2013. (日本音響学会 第34回 粟屋潔学術奨励賞 受賞)
増村 亮, 咸 聖俊, 伊藤 彰則, "Web上の言語資源を利用した大規模話し言葉データからの言語モデル作成", 日本音響学会2011年春季講演論文集, 3-5-3, 2011.
増村 亮, 咸 聖俊, 伊藤 彰則, "確率モデルに基づく音声ドキュメント検索のWebデータを利用した高精度化", 日本音響学会2011年春季講演論文集, 3-5-16, 2011.
増村 亮, 咸 聖俊, 伊藤 彰則, "Webデータを用いた話し言葉用言語モデルの作成", 第5回音声ドキュメント処理ワークショップ, 2011. (slide)
増村 亮, 咸 聖俊, 伊藤 彰則, "確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討", 情報処理学会研究報告,Vol.2010-SLP-84-20, 2010. (pdf) (slide)
増村 亮, 咸 聖俊, 伊藤 彰則, "事前ダウンロードデータの利用による言語モデル教師なし適応のためのキーワード選択", 日本音響学会2010年秋季講演論文集, 1-9-9, 2010. (slide)
増村 亮, 咸 聖俊, 伊藤 彰則, "Spoken Document Expansion using Relevant Web Documents", 平成22年度電気関係学会東北支部連合大会講演論文集, 2A15, pp.34, 2010. (IEEE Sendai Section Student Awards 2010 The Best Paper Prize 受賞)
増村 亮, 咸 聖俊, 伊藤 彰則, "教師なし言語モデル適応のためのWeb Documentを用いた単語のトピック表現", 情報処理学会研究報告,Vol.2010-SLP-82-16, 2010. (pdf)
増村 亮, 大庭 隆伸, 伊藤 彰則, 牧野 正三, "線形分類器による音響モデル", 日本音響学会2010年春季講演論文集, 1-6-11, 2010. (日本音響学会 第1回 学生優秀発表賞 受賞) (slide)
増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三, "Web検索結果を利用したトピック関連語推定に基づく言語モデルの教師なし適応", 日本音響学会2010年春季講演論文集, 2-6-3, 2010.
増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三, "WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価", 情報処理学会研究報告, Vol.2010-SLP-79-33, 2009. (pdf)
増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三, "WWWを利用した有効な検索クエリ構成による言語モデル教師なし適応効果", 日本音響学会2009年秋季講演論文集, 2-1-1, 2009.
増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三, "WWWを利用した言語モデル適応のための検索クエリ構成の検討", 情報処理学会研究報告, Vol.2009-SLP-76-12, 2009. (pdf)
増村亮, "5分で分かる!?有名論文ナナメ読み:Listen, Attend and Spell : A Neural Network for Large Vocabulary Conversational Speech Recognition", vol.62, no.4, pp.202-203, 2021. (pdf)
増村亮, "ICASSP2020参加報告", 映像情報メディア学会誌, vol.74, no.5, pp.837-839, 2020.
秋田 祐哉, 岡本 拓磨, 塩田 さやか, 俵 直弘, 角尾 衣未留, 増村 亮, "国際会議Interspeech2019報告", Vol.2019-SLP-131-2, 2020.
Takanobu Oba, Tomohiro Tanaka, and Ryo Masumura, "Evolution of Speech Recognition System VoiceRex", NTT Technical Review, Vol.17, No.9, 2019. (pdf)
秋田 祐哉, 大町 基, 岡本 拓磨, 落合 翼, 小川 厚徳, 神田 直之, 郡山 知樹, 鈴木 雅之, 太刀岡 勇気, 俵 直弘, 増村 亮, 渡部 晋治, "国際会議ICASSP2019報告", Vol.2019-SLP-128-8, 2019. (pdf)
高木 信二, 安藤 厚志, 越智 景子, 沢田 慶, 塩田 さやか, 鈴木 雅之, 玉森 聡, 俵 直弘, 福田 隆, 増村 亮 "国際会議Interspeech2018報告", Vol.2018-SLP-126-10, 2019. (pdf)
石井 亮, 井上 昂治, 千葉 祐弥, 角森 唯子, 成松 宏美, 福田 悠人, 増村 亮 "国際会議報告(SIGDIAL, ACL, IJCAI-ECAI, COLING, Interspeech, ICMI, EMNLP, IVA, SEMDIAL)", 第9回対話システムシンポジウム, 言語・音声理解と対話処理研究会第84回研究会. (slide)
秋田 祐哉, 安藤 厚志, 岡本 拓磨, 小川 厚徳, 神田 直之, 倉田 岳人, 郡山 知樹, 篠崎 隆宏, 高島 遼一, 太刀岡 勇気, 藤本 雅清, 増村 亮, "国際会議ICASSP2018報告", Vol.2018-SLP-123-2, 2018. (pdf)
高木 信二, 倉田 岳人, 郡山 知樹, 塩田 さやか, 鈴木 雅之, 玉森 聡, 俵 直弘, 中鹿 亘, 福田 隆, 増村 亮, 森勢 将雅, 山岸 順一, 山本 克彦, "国際会議Interspeech2017報告", Vol.2018-SLP-120-14, 2018. (pdf)
浅見 太一, 大谷 大和, 岡本 拓磨, 小川 哲司, 落合 翼, 亀岡 弘和, 駒谷 和範, 高木 信二, 高道 慎之介, 俵 直弘, 南條 浩輝, 橋本 佳, 福田 隆, 増村 亮, 松田 繁樹, 李 晃伸, 渡部 晋治, "国際会議ICASSP2017報告", Vol.2017-SLP-117-3, 2017. (pdf)
浅見 太一, 小川 厚徳, 小川 哲司, 大谷 大和, 倉田 岳人, 齋藤 大輔, 塩田 さやか, 篠原 雄介, 鈴木 雅之, 高道 慎之介, 南條 浩輝. 橋本 佳, 樋口 卓哉, 増村 亮, 吉野 幸一郎, 渡部 晋治, "国際会議INTERSPEECH2016参加報告", Vol.2017-SLP-115-7, 2017. (pdf)
浅見 太一, 大谷 大和, 小川 哲司, 木下 慶介, 倉田 岳人, 齋藤 大輔, 塩田 さやか, 太刀岡 勇気, 中村 静, 増村 亮, 渡部 晋治, "国際会議INTERSPEECH2015参加報告", Vol.2016-SLP-110-4, 2016. (pdf) (slide)
増村 亮, "国際会議報告 EMNLP 2015 (2) ~ 深層学習の観点から ~", 信学技報, vol.115, no.347, NLC2015-12, pp. 41, 2015. (slide) (依頼講演)
浅見 太一, 岩野 公司, 小川 哲司, 駒谷 和範, 齋藤 大輔, 篠田 浩一, 太刀岡 勇気, 東中 竜一郎, 福田 隆, 増村 亮, 渡部 晋治, "国際会議INTERSPEECH2014, SLT2014参加報告", 情報処理学会研究報告,Vol.2015-SLP-105-7, 2015. (pdf) (slide)
齋藤 大輔, 秋田 祐哉, 市川 賢, 柏木 陽佑, 川渕 将太, 小林 和弘, 白鳥 大樹, 鈴木 直人, 田中 宏, 田中 宏季, 千葉 祐弥, 張 聡穎, 中島 陽祐, 長野 雄, 西田 昌史, 西村 良太, 橋本 浩弥, 原 直, 増村 亮, 松山 洋一, 森勢 将雅, 吉野 幸一郎, "SIG-SLP 第 100 回記念シンポジウム: ショート発表", 情報処理学会研究報告. SLP100, pp.1-12, 2014. (slide)
齋藤 大輔, 篠田 浩一, 篠原 雄介, 太刀岡 勇気, 堀 貴明, 増村 亮, 松田 繁樹, 渡部 晋治, "音声研究の最新動向:ICASSP2014の発表より", SLP102企画セッション.
修士学位論文: "関連文書検索に基づく音声言語処理の高度化に関する研究"
博士学位論文: "A Study on Latent Words Language Models for Automatic Speech Recognition" (pdf) (情報処理学会 研究会推薦博士論文 受賞)
音響学入門ペディア, "Q28: 音声認識の概要について教えてください", pp.112-115, 2017. (page)
"Think and Grow Like Humans: Next-generation Media-processing AI 'MediaGnosis’", GTC 2022.
"人のように考え、成長できるAIが切り拓く世界 ~ 次世代メディア処理AI『MediaGnosis』 ~", NTT R&D forum 2021 技術セミナー.
"会話の音声言語を機械が理解する世界に向けて", IPSJ-ONE 2021.
"複数人会話データを活用した音声言語処理とアプリケーション", 第91回 言語・音声理解と対話処理研究会.
"音声認識と音声言語理解", 2019年度応用脳科学アカデミー.
"深層学習による音声認識とその周辺技術・アプリケーション ", 2019年度情報機構 セミナー.
"学会に発表者として継続的に参加するためのセルフマネージメント " , 日本音響学会2019年春季全国大会ビギナーズセミナー
"音声認識と音声言語理解", 2018年度応用脳科学アカデミー.
"深層学習による音声認識・音声対話技術の基礎", 2018年度日本テクノセンターセミナー.
"深層学習による音声認識とその周辺技術・アプリケーション ", 2018年度情報機構 セミナー.
"音声認識と音声言語理解", 2017年度応用脳科学アカデミー.
"SNSと研究・教育", SLP110企画セッション.
"若手座談会", SLP105企画セッション.
田中智大, 増村亮, "学習装置、音声認識順位推定装置、それらの方法、およびプログラム", WO2019-163718
増村亮, 田中智大, "学習装置、識別装置、それらの方法、およびプログラム", WO2019-159995
小橋川哲, 増村亮, 神山歩相名, 井島勇祐, 青野裕司, "発音誤り検出装置、発音誤り検出方法、プログラム", 特許6840858, WO2019-065263
増村亮, 政瀧浩和, "コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム", 特許6852167, WO2019-044583
小橋川哲, 土橋寿昇, 中村高雄, 増村亮, 神山歩相名, 青野裕司, 遠藤公誉, "採点支援装置、その方法、およびプログラム", 特開2020-160388
神山歩相名, 小橋川哲, 安藤厚志, 増村亮, "モデル学習装置、ラベル推定装置、それらの方法、およびプログラム", 特開2020-129322
増村 亮, 田中 智大, 大庭隆伸, "言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体", 特開2020-129061
増村 亮, 田中 智大, 大庭隆伸, "音声認識装置、音声認識方法、プログラム", 特開2020-129015
田中 智大, 増村 亮, 大庭隆伸, "系列ラベリング装置、系列ラベリング方法、およびプログラム", 特開2020-119271
増村 亮, 田中 智大, "タグ推定装置、タグ推定方法、プログラム", 特開2020-052611
小橋川 哲, 増村 亮, 青野 裕司, 井島 勇祐, 峯松 信明, "語学学習支援装置、その方法、およびプログラム", 特開2020-042174
田中 智大, 増村 亮, "音声認識装置、音声認識方法、及びプログラム", 特開2020-034625
神山 歩相名, 安藤 厚志, 増村 亮, 小橋川 哲, "選定装置、学習装置、選定方法、学習方法、及びプログラム", 特開2020-035018
増村 亮, 田中 智大, "学習装置、音声認識装置、学習方法、音声認識方法およびプログラム", 特開2020-030286
増村 亮, 田中 智大, "言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム", 特開2020-027224
増村 亮, 田中 智大, "学習データ生成装置、学習データ生成方法、及びプログラム", 特開2020-027211
齊藤 翔一郎, 白木 善史, 増村 亮, 松井 清彰, 原田 登, "学習型自律システム用学習データ生成装置、学習型自律システム用学習データ生成方法、プログラム", 特開2019-105965
増村 亮 , 浅見 太一, "超球面空間言語モデル生成装置、クエリ尤度算出装置、これらの方法およびプログラム", 特開2018-147062
増村 亮 , 政瀧 浩和, "ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体", 特許6612277, 特開2018-132678
政瀧 浩和, 増村 亮 , "言語モデル構築装置、その方法、及びプログラム", 特開2018-124797
増村 亮 , 政瀧 浩和, "モデルパラメータ製造装置、音声認識装置、モデルパラメータ製造方法、音声認識方法、プログラム", 特許6712540, 特開2018-087842
増村 亮, 浅見 太一, "音声言語識別装置、その方法、及びプログラム", 特許6615736, 特開2018-087935
増村 亮, 中村 孝, 伊藤 彰則, "正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム", 特許6651183, 特開2018-032187
浅見 太一 , 増村 亮, "未知語検出装置、未知語検出方法、プログラム", 特開2017-187541
増村 亮 , 佐藤 賢昭, "音声入力装置、その方法及びプログラム", 特許6367786 , 特開2017-116714,
佐藤 賢昭 , 増村 亮, "音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム", 特開2017-090731
増村 亮 , 政瀧 浩和 , 大庭 隆伸 , 伊藤 彰則, "言語モデル作成装置、言語モデル作成方法、およびプログラム", 特許6443843, 特開2017-058534
東中 竜一郎, 牧野 俊朗 , 松尾 義博 , 浅見 太一 , 増村 亮, "質問文生成装置、方法、及びプログラム", 特開2017-027233
政瀧 浩和, 増村 亮, 中村孝, "言語モデル適応装置、言語モデル適応方法、プログラム", 特許6353408 , 特開2017-003812
増村 亮 , 政瀧 浩和, "言語モデル生成装置、方法及びプログラム", 特許6320966, 特開2016-212773.
増村 亮 , 政瀧 浩和, "言語モデル生成装置、方法及びプログラム", 特許6343582 , 特開2016-200953
浅見 太一, 増村 亮, "学習データ生成装置、方法及びプログラム", 特許6073952, 特開2016-177233.
増村 亮, 政瀧 浩和, "言語識別モデル学習装置、言語識別装置、言語識別モデル学習方法、言語識別方法、プログラム、および記録媒体", 特許6389776, 特開2016-156870
浅見太一, 芦原 孝典, 増村 亮, 政瀧 浩和, "音響スコア算出装置、その方法及びプログラム", 特許6244297, 特開2016-122110
増村 亮, 政瀧 浩和, "言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体", 特許6230987, 特開2016-105232
浅見太一, 増村 亮, 政瀧 浩和, "音声分類装置、音声分類方法、プログラム", 特開2015-230455
増村 亮, 政瀧 浩和, "言語モデル作成装置、言語モデル作成方法及びプログラム", 特許6211995, 特開2015-230441
大庭 隆伸, 政瀧 浩和, 増村 亮, 伊藤 彰則, "音声認識装置、音声認識方法及びプログラム", 特開2015-219253
増村 亮, 政瀧 浩和, 芦原 孝典, "発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体", 特許6125991, 特開2015-121731
増村 亮, 政瀧 浩和, 大庭 隆伸, "トピックモデル学習装置とその方法、そのプログラムと記録媒体", 特許5968283, 特開2015-045915
増村 亮, 政瀧 浩和, 大庭 隆伸, "言語モデル作成装置とその方法、そのプログラムと記録媒体", 特許5860439, 特開2015-031775
増村 亮, 政瀧 浩和, 大庭 隆伸, "音声認識装置、音声認識方法及びプログラム", 特許5975938, 特開2015-001695
増村 亮, 政瀧 浩和, 大庭 隆伸, "言語モデル作成装置とその方法とプログラム", 特許5860424, 特開2014-160153
増村 亮, 政瀧 浩和, "フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム", 特許6000153, 特開2014-153458
増村 亮, 政瀧 浩和, "言語モデル作成装置、方法及びプログラム", 特許5871781, 特開2014-098870
政瀧 浩和, 増村 亮, "辞書・言語モデル圧縮方法とその装置とプログラム", 特開2014-098760
荒井 和博, 増村 亮, "言語モデル評価方法とその装置とプログラム", 特開2014-085462
渡邊 大喜, 増村 亮, 宮崎 泰彦, "音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム", 特開2014-021475
増村 亮, 高橋 敏, 政瀧 浩和, "言語モデル作成装置、言語モデル作成方法、プログラム", 特許5755603, 特開2013-257451