Publications

Journal Paper (peer-reviewed)

H. Munakata, Y. Bando, R. Takeda, K. Komatani, M. Onishi, "Joint Separation and Localization of Moving Sound Sources Based on Neural Full-Rank Spatial Covariance Analysis," IEEE Signal Processing Letters, Vol. 30, 2023, pp.384-388. [Paper], [Demo]
T. Komatsu, H. Munakata, Y. Ishikawa, K. Takeda, T. Toda, "Semi-supervised text-audio contrastive learning method using pseudo-text input," APSIPA Trans. Signal Inf. Process., Vol. 15, 2026, pp.183-198. [Paper]

International Conference (peer-reviewed)

H. Munakata, T. Imamura, T. Nishimura, T. Komatsu, "CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries," In Proc. ICASSP, pp.15352-15356, 2026. [arXiv], [Demo]
H. Munakata, T. Nishimura, S. Nakada, T. Komatsu, "Language-based Audio Moment Retrieval," In Proc. ICASSP, pp.1-5, 2025. [arXiv], [Demo]
H. Munakata, T. Nishimura, S. Nakada, T. Komatsu, "Pre-trained Models, Datasets, Data Augmentation for Language-based Audio Retrieval," In Proc. DCASE Workshop, pp.86-90, 2024. [Paper]
H. Munakata, R. Terashima, and Y. Fujita, "Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework," In Proc. Interspeech, pp.1665-1669, 2024. [arXiv], [Paper]
H. Munakata, R. Takeda, and K. Komatani, "Recursive Sound Source Separation with Deep Learning-based Beamforming for Unknown Number of Sources," In Proc. Interspeech, pp.1688-1692, 2023. [Paper]
H. Munakata, R. Takeda, and K. Komatani, "Training Data Generation with DOA-based Selecting and Remixing for Unsupervised Training of Deep Separation Models," In Proc. Interspeech, pp.861-865, 2022. [Paper]
H. Munakata, R. Takeda, and K. Komatani, "Multiple-Embedding Separation Networks: Sound Class-Specific Feature Extraction for Universal Sound Separation," In Proc. APSIPA ASC, pp.961-967, 2021. [Paper]
T. Manabe, Y. Ishikawa, H. Munakata, T. Komatsu, "ProLAP: Probabilistic Language-Audio Pre-Training," In Proc. Interspeech, 2026 Accepted. [arXiv]
Takehiro Imamura, Tatsuya Komatsu, Hokuto Munakata, Tomoki Toda, "Audio-visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval," In Proc. ICASSP, pp.5551-5555, 2026. [Paper]
T. Komatsu, Hokuto Munakata, Y. Ishikawa, "Leveraging Unlabeled Audio for Audio-Text Contrastive Learning via Audio-Composed Text Features," In Proc. Interspeech, pp.2600-2604, 2025. [Paper]
Y. Ishikawa, S. Nakada, H. Munakata, K. Saito, T. Komatsu, Y. Aoki, "Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos," In Proc. Interspeech, pp.2605-2609, 2025. [arXiv], [Paper]
S. Nakada, T. Nishimura, H. Munakata, T. Komatsu, "DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information," In Proc. ICASSP, pp.1-5, 2025. [arXiv], [Paper]
T. Komatsu, H. Munakata, T. Hasumi, Y. Fujita, "Aligned Contrastive Learning for Text-to-Music Retrieval," In Proc. ICASSP, pp.1-5, 2025. [Paper]
T. Nishimura, S. Nakada, H. Munakata, T. Komatsu, "Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection," In Proc. EMNLP: Sys. Demo., pp.53-60, 2024. [arXiv], [Paper], [GitHub]
R. Takeda, H. Munakata, and K. Komatani, "Link Prediction Based on Large Language Model and Knowledge Graph Retrieval under Open-World and Resource-Restricted Environment," In Proc. International Joint Conference on Knowledge Graphs, 2023 (Best Paper Award.) [Paper]
M. Oshio, H. Munakata, R. Takeda, and K. Komatani, "Out-Of-Vocabulary Word Detection in Spoken Dialogues Based on Joint Decoding with User Response Patterns," In Proc. APSIPA ASC, pp.1753-1759, 2023. [Paper]

Preprint and technical report

S. Nakada, K. Saito, Y. Ishikawa, H. Munakata, T. Komatsu, M. Kondo, "Hallucination Localization in Video Captioning", arXiv preprint. [arXiv]
H. Munakata, T. Nishimura, S. Nakada, T. Komatsu, "Training Strategy of Massive Text-to-audio Models and GPT-based Query-Augmentation", DCASE Challenge, Technical report, 2024. [Paper]

Domestic Conference (in Japanese)

宗像北斗, 今村剛大, 小松達也, "音響区間検索のためのデータセット構築", 日本音響学会2026年春季研究発表会, 2025.
宗像北斗, 西村太一, 仲田勝太, 小松達也, "ICASSP2025における音響-言語モデルの動向", 日本音響学会電気音響研究会/電子情報通信学会応用音響研究会, 2025.
宗像北斗, 西村太一, 仲田勝太, 小松達也, "自然言語による音響区間検索", 日本音響学会2025年春季研究発表会, 2025.
宗像北斗, 坂東宜昭, 武田龍, 駒谷和範, 大西正輝, "音源定位・分離の同時学習に基づく移動音源の深層ブラインド音源分離", 情報処理学会第85回全国大会, 2023. （学生奨励賞受賞）
宗像北斗, 武田龍, 駒谷和範, "モノラル音源分離のための音源間の類似度に基づく学習用混合信号の選択", 情報処理学会第83回全国大会, 2021.
今村剛大, 宗像北斗, 今村剛大, 小松達也, "動画内区間検索における関連度値校正のための音響・映像特徴量統合", 日本音響学会2026年春季研究発表会, 2025.
小松達也, 宗像北斗, 石川裕地, "音響情報に基づいた疑似言語特徴量による半教師あり音響言語対照学習", 日本音響学会2025年秋季研究発表会, 2025.
石川裕地, 小松達也, 仲田勝太, 宗像北斗, 齋藤主裕, 青木義満, "視聴覚認識のためのトリモーダル学習と自動データ生成の提案", 画像の認識・理解シンポジウム, 2025.
仲田勝太, 西村太一, 宗像北斗, 小松達也, 近藤雅芳, 音を発生させる物体を考慮した視聴覚表現学習”, 画像の認識・理解シンポジウム, 2024.
近辻脩壱, 宗像北斗, 武田龍, 駒谷和範, "知識グラフ補完性能向上のための同一エンティティ判定を用いた知識グラフ拡充", 情報処理学会第85回全国大会, 2023. （学生奨励賞受賞）
大塩　幹, 宗像北斗, 武田龍, 駒谷和範, "対話中のユーザの返答パターンに基づく音声発話中の未知語認識", 情報処理学会第85回全国大会, 2023. （学生奨励賞受賞）

Short Talk

Temporal Structure Understanding in Audio and Video, 2026. [Link]
マルチモーダル基盤モデルに基づく動画と音の解析技術, SUMO.ai, 2025. [Link]
Audio and Visual Processing for Video Understanding and Retrieval, Technical Seminar on Acoustic Scene and Event Analysis, 2024. [Link], [Slide]
音楽信号処理総括セッション, ICASSP2024論文読み会, 2024. [Link]
#2, INTERSPEECH2023論文読み会, 2023. [Link]

Google Sites

Report abuse