大井聖也（おおいまさなり）

東京科学大学情報理工学院情報工学系知能情報コース修士2年の大井聖也です。

大学では井上研究室でマルチモーダル自然言語処理に関する研究をしています。

TokyoTech-LLMプロジェクトのメンバーとしてLLMの開発をしています。

３秒敬語で自然言語生成に関するAI開発を行なっています。

CoeFontで音声生成に関する研究開発を行っています。

ニュース

2025.11: 人工知能学会全国大会（第39回）にて発表された共著「JUBAKU: 日本文化における偏見評価のための敵対的ベンチマーク」が全国大会優秀賞を受賞しました。
2025.09: 第261回NL研究発表会にて発表された共著「LLMに日本語テキストを学習させる意義」が2025年度（令和7年度）山下記念研究賞を受賞しました。
2025.07: MELT Workshop（COLM2025と併設）に共著"Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs"が採択されました。
2025.07: COLM2025に共著"Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models"が採択されました。
2025.06: 自然言語処理に主著「大規模言語モデルにおける評価バイアスの尤度に基づく緩和」が採録されました。
2025.03: 言語処理学会第31回年次大会 (NLP2025) にて、主著「複数タスク・複数項目に跨ったマルチモーダル自動評価手法」が委員特別賞を受賞しました。
2025.03: 言語処理学会第31回年次大会 (NLP2025) にて、4本（主著1本, 共著3本）の発表を行います。
2025.01: ICLR2025に共著"HALL-E: Hierarchical Neural Codec Language Model for Minute-Long Zero-Shot Text-to-Speech Synthesis."が採択されました。
2024.09: 第261回NL研究発表会にて、共著「LLMに日本語テキストを学習させる意義」が優秀研究賞を受賞しました。

2024.07: COLM2024に論文が2本採択されました。
2024.07: Meta Llama3の日本語能力を強化したLLM Llama3 Swallowをリリースしました。
2024.05: ACL 2024 findingsに主著"Likelihood-based Mitigation of Evaluation Bias in Large Language Models"が採択されました。
2024.03: 言語処理学会第30回年次大会 (NLP2024) にて、主著「大規模言語モデルにおける評価バイアスの尤度に基づく緩和」が若手奨励賞を受賞しました。
2024.03: 言語処理学会第30回年次大会 (NLP2024) にて、共著「Swallowコーパス: 日本語大規模ウェブコーパス」が優秀賞を受賞しました。
2024.03: 言語処理学会第30回年次大会 (NLP2024) にて、共著「継続事前学習による日本語に強い大規模言語モデルの構築」が優秀賞を受賞しました。
2024.03: 言語処理学会第30回年次大会 (NLP2024) にて、4本（主著1本, 共著3本）の発表を行います。
2024.02: arXivでプレプリントを公開しました: "Likelihood-based Mitigation of Evaluation Bias in Large Language Models"
2023.12: 日本語に強いLLM Swallowをリリースしました。

研究分野・興味

自然言語処理（Natural Language Processing）
- 大規模言語モデル(LLM)
- マルチモーダル処理
- メタ評価
- 推論型モデル
音声生成

職歴

2024.08 - 現在:

リサーチアシスタント

国立研究開発法人産業技術総合研究所（産総研）

2023.10 - 現在:

リサーチアシスタント

東京科学大学

2022.04 - 現在:

AI開発

3keigo.com

2021.10 - 現在:

リサーチエンジニア

CoeFont

業績

※ 一部の文献において、私の名前のローマ字表記が「Masanari Ohi」となっています。現在では「Masanari Oi」を使用しています。

国際学会（査読あり）

Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, Naoaki Okazaki. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. COLM2025.
[paper]
Yuto Nishimura, Takumi Hirose, Masanari Ohi, Hideki Nakayama, Nakamasa Inoue. HALL-E: Hierarchical Neural Codec Language Model for Minute-Long Zero-Shot Text-to-Speech Synthesis. ICLR2025.
[paper]
Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Shota Hirai, Sakae Mizuki, Rio Yokota, Naoaki Okazaki. Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities. COLM2024.
[paper]
Naoaki Okazaki, Kakeru Hattori, Shota Hirai, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, Sakae Mizuki. Building a Large Japanese Web Corpus for Large Language Models. COLM2024.
[paper]
Masanari Ohi, Masahiro Kaneko, Ryuto Koike, Mengsay Loem, Naoaki Okazaki. Likelihood-based Mitigation of Evaluation Bias in Large Language Models. ACL2024 (short, Findings).
[paper][code]

ワークショップ

Koshiro Saito, Sakae Mizuki, Masanari Ohi, Taishi Nakamura, Taihei Shiotani, Koki Maeda, Youmi Ma, Kakeru Hattori, Kazuki Fujii, Takumi Okamoto, Shigeki Ishida, Hiroya Takamura, Rio Yokota, Naoaki Okazaki. Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs. Multilingual and Equitable Language Technologies (MELT), held in conjunction with COLM 2025.

ジャーナル（査読あり）

大井聖也, 金子正弘, 小池隆斗, Mengsay Loem, 岡崎直観. 大規模言語モデルにおける評価バイアスの尤度に基づく緩和. 自然言語処理, 32(2):480–496, Jun 2025.
[論文]

プレプリント（査読なし）

Masanari Ohi, Masahiro Kaneko, Naoki Okazaki, Nakamasa Inoue. HarmonicEval: Multi-modal, Multi-task, Multi-criteria Automatic Evaluation Using a Vision Language Model. arXiv.
[paper]

国内学会（査読なし）

塩谷泰平, 金子正弘, 丹羽彩奈, 丸山裕生, 大葉大輔, 大井聖也, 岡崎直観. JUBAKU: 日本文化における偏見評価のための敵対的ベンチマーク. 2025年度人工知能学会全国大会（第39回）, 大阪. 全国大会優秀賞.
大井聖也, 金子正弘, 岡崎直観, 井上中順. 複数タスク・複数項目に跨ったマルチモーダル自動評価手法. 言語処理学会第31回年次大会 (NLP2025), 長崎. 委員特別賞.
Youmi Ma, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 島田比奈理, 塩谷泰平, 齋藤幸史郎, 前田航希, 服部翔, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 模倣学習による大規模言語モデルの指示チューニング. 言語処理学会第31回年次大会 (NLP2025), 長崎.
服部翔, 水木栄, 藤井一喜, 中村泰士, 塩谷泰平, 植田快, 新妻巧朗, 川畑輝, 田森秀明, Youmi Ma, 前田航希, 大井聖也, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 新聞記事からつくる時事と社会に強い日本語LLM. 言語処理学会第31回年次大会 (NLP2025), 長崎.
服部翔, 岡崎直観, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 塩谷泰平, 齋藤幸史郎, Youmi Ma, 前田航希, 岡本拓己, 石田茂樹, 横田理央, 高村大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築. 言語処理学会第31回年次大会 (NLP2025), 長崎.
大井聖也, 金子正弘, 小池隆斗, Mengsay Loem, 岡崎直観. 大規模言語モデルにおける評価バイアスの尤度に基づく緩和. 言語処理学会第30回年次大会(NLP2024), 兵庫. 若手奨励賞.
岡崎直観, 服部翔, 平井翔太, 飯田大貴, 大井聖也, 藤井一喜, 中村泰士, Mengsay Loem, 横田理央, 水木栄. Swallowコーパス: 日本語大規模ウェブコーパス. 言語処理学会第30回年次大会(NLP2024), 兵庫. 優秀賞.
水木栄, 飯田大貴, 藤井一喜, 中村泰士, Mengsay Loem, 大井聖也, 服部翔, 平井翔太, 横田理央, 岡崎直観. 大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用. 言語処理学会第30回年次大会(NLP2024), 兵庫.
藤井一喜, 中村泰士, Mengsay Loem, 飯田大貴, 大井聖也, 服部翔, 平井翔太, 水木栄, 横田理央, 岡崎直観. 継続事前学習による日本語に強い大規模言語モデルの構築. 言語処理学会第30回年次大会(NLP2024), 兵庫. 優秀賞.

受賞

全国大会優秀賞 (Top 35 / 1178 = 3.0%)
2025年度人工知能学会全国大会（第39回）, 大阪. 2025年5月
委員特別賞 (Top 63 / 726 = 8.7%)

言語処理学会第31回年次大会 (NLP2025), 長崎. 2025年3月.

言語資源賞 (Top 1 / 42 = 2.4%)

言語処理学会第31回年次大会 (NLP2025), 長崎. 2025年3月.

優秀研究賞 (Top 1 / 15 = 6.7%)

第261回⾃然⾔語処理研究発表会, 大阪. 2024年9月.

若手奨励賞 (Top 18 / 427 = 4.2%)

言語処理学会第30回年次大会 (NLP2024), 兵庫. 2024年3月.

優秀賞 (Top 13 / 599 = 2.1%)

言語処理学会第30回年次大会 (NLP2024), 兵庫. 2024年3月.

優秀賞 (Top 13 / 599 = 2.1%)

言語処理学会第30回年次大会 (NLP2024), 兵庫. 2024年3月.

学歴

2024.03 - 現在:

修士（工学）

東京科学大学（旧東京工業大学）

2020.04 - 2024.03:

学士（工学）

東京工業大学

その他

2023.08 - 2023.09: 超短期海外派遣プログラム @スウェーデン🇸🇪
2021.08 - 現在: 奨学生（竹中育英会）

Page updated

Google Sites

Report abuse

大井 聖也（おおい まさなり）

ニュース

研究分野・興味

職歴

業績

※ 一部の文献において、私の名前のローマ字表記が「Masanari Ohi」となっています。現在では「Masanari Oi」を使用しています。

国際学会（査読あり）

ワークショップ

ジャーナル（査読あり）

プレプリント（査読なし）

国内学会（査読なし）

受賞

学歴

その他

大井聖也（おおいまさなり）