International Conference (peer-reviewed)
H. Munakata, T. Imamura, T. Nishimura, T. Komatsu, "CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries", In Proc. ICASSP, pp.XX-XX (accepted), 2026. [arXiv], [Demo]
H. Munakata, T. Nishimura, S. Nakada, T. Komatsu, "Language-based audio moment retrieval", ICASSP, pp.1-5, 2025. [arXiv], [Demo]
H. Munakata, T. Nishimura, S. Nakada, T. Komatsu, "Pre-trained models, Datasets, Data Augmentation for Language-based Audio Retrieval," In Proc. DCASE Workshop, pp.86-90, 2024. [Paper]
H. Munakata, R. Terashima, and Y. Fujita, "Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework", In Proc. Interspeech, pp.1665-1669, 2024. [arXiv], [Paper]
H. Munakata, R. Takeda, and K. Komatani, "Recursive Sound Source Separation with Deep Learning-based Beamforming for Unknown Number of Sources," In Proc. Interspeech, pp.1688-1692, 2023. [Paper]
H. Munakata, R. Takeda, and K. Komatani, "Training Data Generation with DOA-based Selecting and Remixing for Unsupervised Training of Deep Separation Models," In Proc. Interspeech, pp.861-865, 2022. [Paper]
H. Munakata, R. Takeda, and K. Komatani, "Multiple-Embedding Separation Networks: Sound Class-Specific Feature Extraction for Universal Sound Separation," In Proc. APSIPA ASC, pp.961-967, 2021. [Paper]
Takehiro Imamura, Tatsuya Komatsu, Hokuto Munakata, Tomoki Toda, "Audio-visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval, In Proc. ICASSP, pp.XX-XX (accepted), 2026.
T. Komatsu, Hokuto Munakata, Y. Ishikawa, "Leveraging Unlabeled Audio for Audio-Text Contrastive Learning via Audio-Composed Text Features," In Proc. Interspeech, pp.2600-2604, 2025. [Paper]
Y. Ishikawa, S. Nakada, H. Munakata, K. Saito, T. Komatsu, Y. Aoki, "Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos," In Proc. Interspeech, pp.2605-2609, 2025. [arXiv], [Paper]
S. Nakada, T. Nishimura, H. Munakata, T. Komatsu, "DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information", In Proc. ICASSP, pp.1-5, 2025. [arXiv], [Paper]
T. Komatsu, H. Munakata, T. Hasumi, Y. Fujita, "Aligned Contrastive Learning for Text-to-Music Retrieval", In Proc. ICASSP, pp.1-5, 2025. [Paper]
T. Nishimura, S. Nakada, H. Munakata, T. Komatsu, "Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection", In Proc. EMNLP: Sys. Demo., pp.53-60, 2024. [arXiv], [Paper], [GitHub]
R. Takeda, H. Munakata, and K. Komatani, "Link Prediction Based on Large Language Model and Knowledge Graph Retrieval under Open-World and Resource-Restricted Environment," In Proc. International Joint Conference on Knowledge Graphs, 2023 (Best Paper Award.) [Paper]
M. Oshio, H. Munakata, R. Takeda, and K. Komatani, "Out-Of-Vocabulary Word Detection in Spoken Dialogues Based on Joint Decoding with User Response Patterns," In Proc. APSIPA ASC, pp.1753-1759, 2023. [Paper]
Preprints and technical reports
S. Nakada, K. Saito, Y. Ishikawa, H. Munakata, T. Komatsu, M. Kondo, "Hallucination Localization in Video Captioning", arXiv preprint. [arXiv]
T. Manabe, Y. Ishikawa, H. Munakata, T. Komatsu, "ProLAP: Probabilistic Language-Audio Pre-Training", arXiv preprint. [arXiv]
H. Munakata, T. Nishimura, S. Nakada, T. Komatsu, "Training Strategy of Massive Text-to-audio Models and GPT-based Query-Augmentation", DCASE Challenge, Technical report, 2024. [Paper]
Domestic Conference (in Japanese)
宗像 北斗, 今村 剛大, 小松 達也, "音響区間検索のためのデータセット構築", 日本音響学会2026年春季研究発表会, 2025.
宗像北斗, 西村 太一, 仲田 勝太, 小松 達也, "ICASSP2025における音響-言語モデルの動向", 日本音響学会電気音響研究会/電子情報通信学会 応用音響研究会, 2025.
宗像北斗, 西村 太一, 仲田 勝太, 小松 達也, "自然言語による音響区間検索", 日本音響学会2025年春季研究発表会, 2025.
宗像 北斗, 坂東 宜昭, 武田 龍, 駒谷 和範, 大西 正輝, "音源定位・分離の同時学習に基づく移動音源の深層ブラインド音源分離", 情報処理学会第85回全国大会, 2023. (学生奨励賞受賞)
宗像 北斗, 武田 龍, 駒谷 和範: "モノラル音源分離のための音源間の類似度に基づく学習用混合信号の選択", 情報処理学会第83回全国大会, 2021.
今村 剛大, 宗像 北斗, 今村 剛大, 小松 達也, "動画内区間検索における関連度値校正のための音響・映像特徴量統合", 日本音響学会2026年春季研究発表会, 2025.
小松 達也, 宗像 北斗, 石川 裕地, "音響情報に基づいた疑似言語特徴量による半教師あり音響言語対照学習", 日本音響学会2025年秋季研究発表会, 2025.
石川 裕地, 小松 達也, 仲田 勝太, 宗像 北斗, 齋藤 主裕, 青木 義満, "視聴覚認識のためのトリモーダル学習と自動データ生成の提案", 画像の認識・理解シンポジウム, 2025.
仲田 勝太, 西村 太一, 宗像 北斗, 小松 達也, 近藤 雅芳, 音を発生させる物体を考慮した視聴覚表現学習”, 画像の認識・理解シンポジウム, 2024.
近辻 脩壱, 宗像 北斗, 武田 龍, 駒谷 和範, "知識グラフ補完性能向上のための同一エンティティ判定を用いた知識グラフ拡充", 情報処理学会第85回全国大会, 2023. (学生奨励賞受賞)
大塩 幹, 宗像 北斗, 武田 龍, 駒谷 和範, "対話中のユーザの返答パターンに基づく音声発話中の未知語認識", 情報処理学会第85回全国大会, 2023. (学生奨励賞受賞)