Publications
Journal Paper
K. Fujita, A. Ando, and Y. Ijima, "Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis," IEICE Transactions, vol. E107-D, no. 1, 2024. (To appear)
S. Suzuki, S. Takeda, N. Makishima, A. Ando, R. Masumura, and H. Shouno, "Knowledge Transferred Fine-Tuning: Convolutional Neural Network Is Born Again With Anti-Aliasing Even in Data-Limited Situations," IEEE Access, vol. 10, pp. 68384-68396, 2022. (pdf)
A. Ando, T. Mori, S. Kobashikawa, and T. Toda, “Speech emotion recognition based on listener-dependent emotion perception models,” APSIPA Transactions on Signal and Information Processing, vol. 10, no. E6, 2021. (cambridge)
A. Ando, R. Masumura, H. Kamiyama, S. Kobashikawa, Y. Aono, and T. Toda, “Customer Satisfaction Estimation in Contact Center Calls Based on a Hierarchical Multi-Task Model,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 715–728, 2020. (ieee)
H. Kamiyama, A. Ando, R. Masumura, S. Kobashikawa, and Y. Aono, “Likability estimation for contact center agents by selecting annotators based on binomial distribution,” Acoustical Science and Technology, vol. 41, no. 6, pp. 826–828, 2020. (j-stage)
International Conferences
K. Suzuki, S. Suzuki, R. Masumura, A. Ando, and N. Makishima, "Multi-region CNN-Transformer for Micro-gesture Recognition in Face and Upper Body," Proc. ACM MMAsia, pp. 1-5, 2023. (pdf)
S. Suzuki, T. Yamane, N. Makishima, K. Suzuki, A. Ando, and R. Masumura, "OnDA-DETR: Online Domain Adaptation for Detection Transformers with Self-Training Framework," Proc. ICIP, pp. 1780-1785, 2023. (pdf)
N. Tawara, M. Delcroix, A. Ando, and A. Ogawa, "NTT speaker diarization system for CHiME-7: multi-domain, multi-microphone End-to-end and vector clustering diarization," Proc. ICASSP, 2024 (To appear) (arxiv)
S. Suzuki, S. Yamaguchi, S. Takeda, S. Kanai, N. Makishima, A. Ando, and R. Masumura, "Adversarial Finetuning with Latent Representation Constraint to Mitigate Accuracy-Robustness Tradeoff," arXiv preprint, 2023. (pdf)
R. Masumura, N. Makishima, T. Yamane, Y. Yamazaki, S. Mizuno, M. Ihori, M. Uchida, K. Suzuki, H. Sato, T. Tanaka, A. Takashima, S. Suzuki, T. Moriya, N. Hojo, and A. Ando, "End-to-End Joint Target and Non-Target Speakers ASR," arXiv preprint, 2023. (pdf)
A. Ando, R. Masumura, A. Takashima, S. Suzuki, N. Makishima, K. Suzuki, T. Moriya, T. Ashihara, and H. Sato, "On the Use of Modality-Specific Large-Scale Pre-Trained Encoders for Multimodal Sentiment Analysis," Proc. of SLT, pp. 739--746. 2023. (pdf) (arxiv) (github) (slides) (poster)
N. Makishima, S. Suzuki, A. Ando, R. Masumura, "Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data," Proc. of INTERSPEECH, pp. 526--530, 2022. (pdf) (arxiv)
A. Ando, Y. Murata, R. Masumura, S. Suzuki, N. Makishima, T. Moriya, T. Ashihara, and H. Sato, "Customer Satisfaction Estimation Using Unsupervised Representation Learning with Multi-Format Prediction Loss," Proc. ICASSP, pp. 8497-8501, 2022. (pdf) (slides)
T. Moriya, T. Ashihara, A. Ando, H. Sato, T. Tanaka, K. Matsuura, R. Masumura, M. Delcroix, T. Shinozaki, "Hybrid RNN-T/Attention-based streaming ASR with triggered chunkwise attention and dual internal language model integration," Proc. ICASSP, pp. 8282--8286, 2022. (pdf)
A. Takashima, R. Masumura, A. Ando, Y. Yamazaki, M. Uchida, S. Orihashi, "Interactive Co-Learning with Cross-Modal Transformer for Audio-Visual Emotion Recognition," Proc. INTERSPEECH, pp.4740--4744, 2022. (pdf)
R. Masumura, Y. Yamazaki, S. Mizuno, N. Makishima, M. Ihori, M. Uchida, H. Sato, T. Tanaka, A. Takashima, S. Suzuki, S. Orihashi, T. Moriya, N. Hojo, and A. Ando, "End-to-End Joint Modeling of Conversation History-Dependent and Independent ASR Systems with Multi-History Training," Proc. INTERSPEECH, pp. 3218--3222, 2022. (pdf)
K. Fujita, A. Ando, Y. Ijima, "Phoneme Duration Modeling Using Speech Rhythm-Based Speaker Embeddings for Multi-Speaker Speech Synthesis," Proc. INTERSPEECH, pp. 3141--3145, 2021. (pdf)
T. Moriya, T. Tanaka, T. Ashihara, T. Ochiai, H. Sato, A. Ando, R. Masumura, M. Delcroix, T. Asami, "Streaming End-to-End Speech Recognition for Hybrid RNN-T/Attention Architecture," Proc. INTERSPEECH, pp. 1787--1791, 2021. (pdf)
A. Ando, R. Masumura, H. Sato, T. Moriya, T. Ashihara, Y. Ijima, and T. Toda, “Speech Emotion Recognition Based on Listener Adaptive Models,” Proc. ICASSP, pp. 6274–6278, 2021. (ieee)
T. Moriya, T. Ashihara, T. Tanaka, T. Ochiai, H. Sato, A. Ando, Y. Ijima, R. Masumura, Y. Shinohara, "Simpleflat: A Simple Whole-Network Pre-Training Approach for RNN Transducer-Based End-to-End Speech Recognition," Proc. ICASSP, pp. 5664–5668, 2021. (ieee)
Y. Kitagishi, H. Kamiyama, A. Ando, N. Tawara, T. Mori, and S. Kobashikawa, “Speaker Age Estimation Using Age-Dependent Insensitive Loss,” Proc. APSIPA, pp. 319–324, 2020.
R. Masumura, M. Ihori, A. Takashima, T. Moriya, A. Ando, and Y. Shinohara, “Sequence-level consistency training for semi-supervised end-to-end automatic speech recognition,” Proc. ICASSP, pp. 7054–7058, 2020.
H. Kamiyama, A. Ando, R. Masumura, S. Kobashikawa, and Y. Aono, “Urgent Voicemail Detection Focused on Long-term Temporal Variation,” Proc. APSIPA, pp. 917–921, 2019.
H. Kamiyama, A. Ando, R. Masumura, S. Kobashikawa, and Y. Aono, “Likability Estimation of Call-center Agents by Suppressing Annotator Variability,” Proc. APSIPA, pp. 911–916, 2019.
A. Ando, R. Masumura, H. Kamiyama, S. Kobashikawa, and Y. Aono, “Speech Emotion Recognition Based on Multi-Label Emotion Existence Model,” Proc. INTERSPEECH, pp. 2818–2822, 2019. (pdf)
Y. Zhao, A. Ando, S. Takaki, J. Yamagishi, S. Kobashikawa, “Does the Lombard Effect Improve Emotional Communication in Noise? ― Analysis of Emotional Speech Acted in Noise,” Proc. INTERSPEECH, pp. 3292–3296, 2019.
R. Masumura, T. Tanaka, A. Ando, H. Kamiyama, T. Oba, S. Kobashikawa, and Y. Aono, “Improving Conversation-Context Language Models with Multiple Spoken Language Understanding Models,” Proc. INTERSPEECH, pp. 834–838, 2019.
R. Masumura, M. Ihori, T. Tanaka, A. Ando, R. Ishii, T. Oba, and R. Higashinaka, “Improving speech-based end-of-turn detection via cross-modal representation learning with punctuated text data,” Proc. ASRU, pp. 1062–1069, 2019.
R. Masumura, S. Yamada, T. Tanaka, A. Ando, H. Kamiyama, and Y. Aono, “Online call scene segmentation of contact center dialogues based on role aware hierarchical LSTM-RNNs,” Proc. APSIPA, pp. 811–815, 2018.
R. Masumura, T. Tanaka, A. Ando, H. Masataki, Y. Aono, “Role Play Dialogue Aware Language Models Based on Conditional Hierarchical Recurrent Encoder- Decoder,” Proc. INTERSPEECH, pp. 1259–1263, 2018.
R. Masumura, T. Tanaka, A. Ando, R. Ishii, R. Higashinaka, and Y. Aono, “Neural dialogue context online end-of-turn detection,” Proc. Annual SIGdial Meeting on Discourse and Dialogue, pp. 224–228, 2018.
A. Ando, S. Kobashikawa, H. Kamiyama, R. Masumura, Y. Ijima, and Y. Aono, “Soft-target training with ambiguous emotional utterances for DNN-based speech emotion classification,” Proc. ICASSP, pp. 4964–4968, 2018. (ieee)
A. Ando, R. Asakawa, R. Masumura, H. Kamiyama, S. Kobashikawa, and Y. Aono, “Automatic Question Detection from Acoustic and Phonetic Features Using Feature-wise Pre-training,” Proc. INTERSPEECH, pp. 1731–1735, 2018. (pdf)
H. Kamiyama, A. Ando, S. Kobashikawa, and Y. Aono, “Robust children and adults speech identification and confidence measure based on DNN posteriorgram,” Proc. APSIPA, pp. 502–505, 2017.
A. Ando, R. Masumura, H. Kamiyama, S. Kobashikawa, and Y. Aono, “Hierarchical LSTMs with Joint Learning for Estimating Customer Satisfaction from Contact Center Calls,” Proc. INTERSPEECH, pp. 1716–1720, 2017. (pdf)
R. Zhang, A. Ando, S. Kobashikawa, and Y. Aono, “Interaction and Transition Model for Speech Emotion Recognition in Dialogue,” Proc. INTERSPEECH, pp. 1094–1097, 2017.
A. Ando, T. Asami, Y. Yamaguchi, and Y. Aono, “Speaker recognition in duration-mismatched condition using bootstrapped i-vectors,” Proc. APSIPA, pp. 1–4, 2016. (ieee)
A. Ando, T. Asami, M. Okamoto, H. Masataki, and S. Sakauchi, “Agreement and disagreement utterance detection in conversational speech by extracting and integrating local features,” Proc. INTERSPEECH, 2015. (pdf)
Domestic Conferences
若松智花, 安藤厚志, 塩田さやか, 増村亮, 貴家仁志, "自己教師あり学習に基づく話者照合における言語性の影響," 音声言語情報処理(SLP) 研究報告, 2023-SLP-146, pp.1-6, 2023.
牧島直輝, 鈴木聡志, 安藤厚志, 増村亮, "音声合成と音声認識に対するテキストデータを用いた半教師あり統合学習, " 電子情報通信学会技術研究報告, vol. 122, no. 288, SP2022-34, pp. 27-32, 2022年11月.
安藤厚志, 高島瑛彦, 増村亮, 鈴木聡志, 牧島直輝, "大規模事前学習モデルを用いたマルチモーダル感情認識," 日本音響学会講演論文集(秋), 3-Q-17, 2022. (poster)
牧島直輝, 鈴木 聡志, 安藤 厚志, 増村亮, "話者整合性損失と段階的最適化に基づく音声認識と音声合成の半教師あり統合学習, "日本音響学会講演論文集(秋), 2-8-2, 2022.
森谷崇史, 芦原 孝典, 安藤 厚志, 佐藤 宏, 田中 智大, 松浦 孝平, 増村 亮, デルクロア マーク, 篠崎 隆宏, "Hybrid RNN-T/Attention 音声認識モデルにおける Triggered Chunkwise Attention と内部言語モデル統合の検討," 日本音響学会講演論文集(秋), 2-Q-23, 2022.
佐藤宏, 芦原孝典, 安藤 厚志, 森谷崇史, "教師なし事前学習を用いた対話エージェントの誤応答防止技術 ," 日本音響学会講演論文集(秋), 3-Q-20, 2022.
森谷崇史, 芦原孝典, 安藤厚志, 佐藤宏, 田中智大, 松浦孝平, 増村亮, デルクロア マーク, 篠崎隆宏, "Hybrid RNN-T/Attention構造を用いたストリーミング型End-to-End音声認識モデルと内部言語モデル統合の検討," 電子情報通信学会技術研究報告, vol. 121, no. 385, SP2021-63, pp. 90-95, 2022年3月.
安藤厚志, 村田有実子, 増村亮, 鈴木聡志, 牧島直輝, 森谷崇史, 芦原孝典, 佐藤宏, "Multi-Format Prediction損失に基づく教師なし事前学習を用いた顧客満足度推定," 日本音響学会講演論文集(春), 2022. (slides)
安藤厚志, 森谷崇史, 増村亮, 浅見太一, " 短時間話者埋込みに基づくストリーミング型End-to-End話者ダイアライゼーション," 日本音響学会講演論文集(秋), 2-3Q-1, 2021. (poster)
藤田健一, 安藤厚志, 井島勇祐, “音素継続時間長のモデル化のための発話リズムに基づく話者埋め込みの検討,” 電子情報通信学会技術研究報告, Vol. 120, IEICESP-399, pp. 103–108, 2021.
安藤厚志, 森岳至, 小橋川哲, 戸田智基, “聴取者ごとの感情知覚モデルに基づく音声感情認識,” 日本音響学会講演論文集(秋), 3-2-1, pp. 777–778, 2020. (slides)
北岸佑樹, 神山歩相名, 安藤厚志, 俵直弘, 森岳至, 小橋川哲, “話者性別推定とのマルチタスク学習による話者年齢推定,” 日本音響学会講演論文集(秋), 3-T2-8, pp. 909–910, 2020.
岡田慎太郎, 安藤厚志, 戸田智基, “発話感情認識における音韻・話者情報の低減,” 日本音響学会講演論文集(春), 1-4-3, pp. 873–874, 2020. (学生優秀発表賞)
増村亮, 庵愛, 高島瑛彦, 森谷崇史, 安藤厚志, 篠原雄介, “半教師ありEnd-to-End 音声認識のための系列単位Consistency Training の検討,” 日本音響学会講演論文集(春), 2-4-3, pp. 889–890, 2020.
安藤厚志, 増村亮, 神山歩相名, 小橋川哲, 青野裕司, “マルチラベル感情表出推定に基づく音声感情分類,” 電子情報通信学会技術研究報告, Vol. 119, IEICE-SP-188, pp. 39–44, 2019.
増村亮, 田中智大, 安藤厚志, 神山歩相名, 大庭隆伸, 青野裕司, “対話コンテキストを考慮したニューラル通話シーン分割,” 電子情報通信学会技術研究報告, Vol. 118, IEICE-NLC-439, pp. 21–26, 2019.
増村亮, 田中智大, 安藤厚志, 大庭隆伸, 青野裕司, “条件付き階層再帰型エンコーダデコーダに基づく複数人会話音声認識向け言語モデル,” 電子情報通信学会技術研究報告, Vol. 118, IEICE-NLC-439, pp. 21–26, 2019.
神山歩相名, 安藤厚志, 増村亮, 小橋川哲, 青野裕司, “アノテータのラベル付与能力を考慮した電話応対音声の好感度推定モデル学習法の検討,” 電子情報通信学会技術研究報告, Vol. 118, IEICE-SP-497, pp. 197–202, 2019.
Y. Zhao, A. Ando, S. Takaki, J. Yamagishi, S. Kobashikawa, “Initial analysis of emotional speech acted in noise,” 電子情報通信学会技術研究報告, Vol. 118, IEICESP-497, pp. 125–130, 2019.
神山歩相名, 安藤厚志, 増村亮, 小橋川哲, 青野裕司, “話速の変動を捉える特徴量に基づく留守録音声の緊急度推定,” 日本音響学会講演論文集(秋), 1-3-4, pp. 1185–1186, 2019.
安藤厚志, 増村亮, 神山歩相名, 小橋川哲, 青野裕司, 戸田智基, “コンタクトセンタ顧客満足度推定におけるドメイン適応の検討,” 日本音響学会講演論文集(秋), 2-Q-3, pp. 885–886, 2019.
岡田慎太郎, 安藤厚志, 戸田智基, “発話感情認識における音素事後確率を利用した表現学習とデータ拡張の評価,” 電子情報通信学会技術研究報告, Vol. 119, IEICESP-321, pp. 91–96, 2019.
高木信二, 安藤厚志, 越智景子, 沢田慶, 塩田さやか, 鈴木雅之, 玉森聡, 俵直弘, 福田隆, 増村亮, “国際会議Interspeech2018 報告,” 情報処理学会研究報告, 2019-SLP-126, no. 10, pp. 1-9, 2019.
神山歩相名, 安藤厚志, 増村亮, 小橋川哲, 青野裕司, “ラベラーの安定性を考慮した潜在変数モデルに基づく電話応対の好感度推定,” 日本音響学会講演論文集(春), 1-9-13, pp. 1353–1356, 2019.
安藤厚志, 神山歩相名, 小橋川哲, 青野裕司, “逆教師学習に基づく音声感情分類,” 日本音響学会講演論文集(春), 1-9-14, pp. 1357–1358, 2019.
岡田慎太郎, 安藤厚志, 戸田智基, “音素事後確率を利用した表現学習に基づく発話感情認識,” 日本音響学会講演論文集(春), 2-9-7, pp. 881–882, 2019. (日本音響学会 第19回 学生優秀発表賞 受賞)
増村亮, 田中智大, 安藤厚志, 石井亮, 東中竜一郎, 青野裕司, “対話コンテキストを扱うターン交替点検出の検討,” 日本音響学会講演論文集(春), 3-9-2, pp. 889–890, 2019.
秋田祐哉, 安藤厚志, 岡本拓磨, 小川厚徳, 神田直之, 倉田岳人, 郡山知樹, 篠崎隆宏, 高島遼一, 太刀岡勇気, 藤本雅清, 増村亮, “国際会議Interspeech2018 報告,” 情報処理学会研究報告, 2018-SLP-123, no. 2, pp. 1-7, 2018.
安藤厚志, 増村亮, 神山歩相名, 小橋川哲, 青野裕司, “Feature-wise Pre-trainingを用いた音声・言語特徴からの質問発話検出,” 日本音響学会講演論文集(秋), 2-Q-5, pp. 1049–1050, 2018. (粟屋潔学術奨励賞)
神山歩相名, 安藤厚志, 増村亮, 小橋川哲, 青野裕司, “ラベラーの安定性を考慮した電話応対者の好感度推定,” 日本音響学会講演論文集(秋), 2-Q-6, pp. 1051–1052, 2018.
安藤厚志, 神山歩相名, 小橋川哲, 増村亮, 青野裕司, “曖昧感情発話を活用したソフトターゲット学習に基づく音声感情分類,” 日本音響学会講演論文集(春), 2-8-5, pp. 41–42, 2018.
安藤厚志, Zhang Ruo, 小橋川哲, 青野裕司, “感情の自己/相互作用モデルを用いた対話音声の感情分類,” 日本音響学会講演論文集(春), 2-8-6, pp. 43–44, 2018.
神山歩相名, 安藤厚志, 小橋川哲, 青野裕司, “電話応対音声における好感度推定の検討,” 日本音響学会講演論文集(春), 2-Q-6, pp. 149–150, 2018.
渡部瑞季, 安藤厚志, 神山歩相名, 小橋川哲, 青野裕司, 大庭隆伸, 礒田佳徳, “対面式の窓口会話に対する話者の出現パターンに着目したダイアライゼーション,” 電子情報通信学会技術研究報告, Vol. 117, IEICE-SP-160, pp. 21–26, 2017.
安藤厚志, 増村亮, 神山歩相名, 小橋川哲, 青野裕司, “階層マルチタスク学習を用いたコンタクトセンタ通話からの顧客満足度推定,” 日本音響学会講演論文集(秋), 1-10-13, pp. 37–38, 2017.
神山歩相名, 安藤厚志, 小橋川哲, 青野裕司, “性別年代識別におけるDNN 事後確率系列を用いた信頼度尺度,” 日本音響学会講演論文集(秋), 2-Q-15, pp. 163–164, 2017.
神山歩相名, 安藤厚志, 浅見太一, 小橋川哲, 山口義和, 青野裕司, “DNN における偏在データの影響を考慮した性別・年代識別手法,” 日本音響学会講演論文集(春), 1-Q-17, pp. 127–128, 2017.
安藤厚志, 神山歩相名, 小橋川哲, 青野裕司, “コンタクトセンタ通話における顧客満足度推定の検討,” 日本音響学会講演論文集(春), 2-P-4, pp. 145–146, 2017.
安藤厚志, 浅見太一, 山口義和, 青野裕司, “短い発話での話者識別における話者の血縁関係の影響分析,” 日本音響学会講演論文集(秋), 2-4-5, pp. 15–16, 2016.
安藤厚志, 浅見太一, 山口義和, 青野裕司, “登録発話分割を用いた短い発話に頑健な話者識別,” 日本音響学会講演論文集(春), 1-1-6, pp. 11–12, 2016.
安藤厚志, 浅見太一, 岡本学, 政瀧浩和, 阪内澄宇, “韻律と言語の局所的特徴に基づく会議音声からの肯定/否定発話の抽出,” 日本音響学会講演論文集(秋), 2-1-9, pp. 1323–1324, 2015.
安藤厚志, 宮島千代美, 北岡教英, 武田一哉, “音声認識のための特徴量領域音源分離,” 日本音響学会講演論文集(秋), 3-9-12, 2012.
安藤厚志, 丹羽健太, 北岡教英, 武田一哉, “特徴量領域音源分離のためのクロススペクトル抑圧,” 電子情報通信学会技術研究報告, Vol. 112, no. 369, pp. 107–112, 2012.
安藤厚志, 大橋宏正, 原直, 北岡教英, 武田一哉, “ブラインド音源分離の信頼度を用いたマルチバンド音声認識,” 電子情報通信学会技術研究報告, Vol. 111, no. 431, pp. 219–224, 2012.
安藤厚志, 大橋宏正, 原直, 北岡教英, 武田一哉, “周波数帯域ごとの音源分離信頼度を利用したマルチバンド音声認識,” 日本音響学会講演論文集(春), 1-P-15, pp. 153–156, 2012.
Invited Talks
安藤厚志, "(招待講演) 音声感情認識の最前線," 日本音響学会講演論文集(秋), 1-9-11, 2023. (speakerdeck)
安藤厚志, "深層学習を用いた音声感情認識," 日本音響学会 第23回サマーセミナー, 2022. (speakerdeck)
安藤厚志, “[招待講演] 音声感情認識の分野動向と実用化に向けたNTT の取り組み,” 情報処理学会研究報告, 2020-SLP-133, no. 16, pp. 1-1, 2020. (slideshare)
安藤厚志, “企業研究者の研究のすゝめ方,” 日本音響学会 ビギナーズセミナー, 2020. (slideshare)