Publications
Journal Papers
Masao Ideuchi, Yohei Sakamoto, Yoshiaki Oida, Isaac Okada, Shohei Higashiyama, Masao Utiyama, Eiichiro Sumita, and Taro Watanabe. A Selection Support System for Enterprise Resource Planning Package Components using Ensembles of Multiple Models with Round-trip Translation. Journal of Natural Language Processing, Vol. 28, No. 4, pp. 1270-1298, December 2021. [paper]
Shohei Higashiyama, Masao Utiyama, Yuji Matsumoto, Taro Watanabe, and Eiichiro Sumita. Auxiliary Lexicon Word Prediction for Cross-Domain Word Segmentation. Journal of Natural Language Processing, Vol. 27, No. 3, pp. 573-598, September 2020. [paper]
Shohei Higashiyama, Masao Utiyama, Eiichiro Sumita, Masao Ideuchi, Yoshiaki Oida, Yohei Sakamoto, Isaac Okada, and Yuji Matsumoto. Character-to-Word Attention for Word Segmentation. Journal of Natural Language Processing, Vol. 27, No. 3, pp. 499-530, September 2020. [paper] 論文賞 (Best Paper Award)
東山翔平,関和広,上原邦昭.医療用語資源の語彙拡張と診療情報抽出への応用.自然言語処理,Vol. 22,No. 2,pp. 77-106,2015年6月. [paper]
Shohei Higashiyama, Mathieu Blondel, Kazuhiro Seki and Kuniaki Uehara. Cost-Sensitive Structured Perceptron Incorporating Category Hierarchy for Named Entity Recognition. Journal of Information and Communication Technology (JICT), Vol. 14, pp. 1-20, May 2015. [paper]
東山翔平,ブロンデルマチュー,関和広,上原邦昭.カテゴリ階層を考慮した構造化パーセプトロンによる固有表現抽出.情報処理学会論文誌:数理モデル化と応用,Vol. 6,No. 3,pp. 43-52,2013年12月. [paper]
International Conference/Workshop Papers (Refereed)
Shohei Higashiyama, Hiroki Ouchi, Hiroki Teranishi, Hiroyuki Otomo, Yusuke Ide, Aitaro Yamamoto, Hiroyuki Shindo, Yuki Matsuda, Shoko Wakamiya, Naoya Inoue, Ikuya Yamada, and Taro Watanabe. Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation. Findings of the Association for Computational Linguistics: EACL 2024, Malta, March, 2024. [paper] [dataset] [code]
Acceptance rate: main 17.8%=226/1271, main+fidings 30.5%=388/1271
Shohei Higashiyama, Masao Ideuchi, Masao Utiyama, Yoshiaki Oida, and Eiichiro Sumita. A Japanese Corpus of Many Specialized Domains for Word Segmentation and Part-of-Speech Tagging. Proceedings of the 3rd Workshop on Evaluation and Comparison of NLP Systems (Eval4NLP), pp. 1-10, Online, November, 2022. [paper] [dataset]
Acceptance rate: 55%=11/20
Shohei Higashiyama, Masao Utiyama, Taro Watanabe, and Eiichiro Sumita. A Text Editing Approach to Joint Japanese Word Segmentation, POS Tagging, and Lexical Normalization. In Proceedings of the 7th Workshop on Noisy User-generated Text (W-NUT), pp. 67-80, Online, November, 2021. [paper] Best Paper Award
Acceptance rate: long 57.9%=22/38, short 90.3%=28/31
Shohei Higashiyama, Masao Utiyama, Taro Watanabe, and Eiichiro Sumita. User-Generated Text Corpus for Evaluating Japanese Morphological Analysis and Lexical Normalization. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 5532-5541, Online, June 2021. [paper] [dataset]
Acceptance rate: long 28%, short 26%
Shohei Higashiyama, Masao Utiyama, Eiichiro Sumita, Masao Ideuchi, Yoshiaki Oida, Yohei Sakamoto, and Isaac Okada. Incorporating Word Attention into Character-Based Word Segmentation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 2699-2709, Minneapolis, USA, June 2019. [paper] [code]
Acceptance rate: long 26.3%=281/1067, short 21.3%=142/666
Shohei Higashiyama, Kunihiko Sadamasa, Takashi Onishi, and Yotaro Watanabe. Event Relation Acquisition Using Dependency Patterns and Confidence-Weighted Co-occurrence Statistics. In Proceedings of the 2017 Federated Conference on Computer Science and Information Systems (FedCSIS), Annals of Computer Science and Information Systems, Vol. 11, pp. 339-345, Prague, Czech, September 2017. [paper]
Acceptance rate: full 19.3%=96/497
Shohei Higashiyama, Mathieu Blondel, Kazuhiro Seki, and Kuniaki Uehara. A Cost-Sensitive Approach to Named Entity Recognition with Category Hierarchy. In Proceedings of the International Conference on Computer and Information Sciences (ICCOINS 2014), Kuala Lumpur, Malaysia, June 2014. [paper] Best Paper Award
Shohei Higashiyama, Kazuhiro Seki, and Kuniaki Uehara. Developing ML-based Systems to Extract Medical Information from Japanese Medical History Summaries. In Proceedings of International Joint Conference on Natural Language Processing Workshop on Natural Language Processing for Medical and Healthcare Fields. pp. 14-21, Nagoya, Japan, October 2013. [paper]
International Conference/Workshop Papers (Non-refereed)
Toshiaki Nakazawa, Kazutaka Kinugawa, Hideya Mino, Isao Goto, Raj Dabre, Shohei Higashiyama, Shantipriya Parida, Makoto Morishita, Ondřej Bojar, Akiko Eriguchi, Yusuke Oda, Chenhui Chu, and Sadao Kurohashi. Overview of the 10th Workshop on Asian Translation. In Proceedings of the 10th Workshop on Asian Translation (WAT2023), September, 2023. [paper]
Toshiaki Nakazawa, Hideya Mino, Isao Goto, Raj Dabre, Shohei Higashiyama, Shantipriya Parida, Anoop Kunchukuttan, Makoto Morishita, Ondřej Bojar, Chenhui Chu, Akiko Eriguchi, Kaori Abe, Yusuke Oda, and Sadao Kurohashi. Overview of the 9th Workshop on Asian Translation. In Proceedings of the 9th Workshop on Asian Translation (WAT2022), October, 2022. [paper]
Toshiaki Nakazawa, Hideki Nakayama, Chenchen Ding, Raj Dabre, Shohei Higashiyama, Hideya Mino, Isao Goto, Win Pa Pa, Anoop Kunchukuttan, Shantipriya Parida, Ondřej Bojar, Chenhui Chu, Akiko Eriguchi, Kaori Abe, Yusuke Oda, and Sadao Kurohashi. Overview of the 8th Workshop on Asian Translation. In Proceedings of the 8th Workshop on Asian Translation (WAT2021), pp. 1-45, Online, August, 2021. [paper]
Toshiaki Nakazawa, Hideki Nakayama, Chenchen Ding, Raj Dabre, Shohei Higashiyama, Hideya Mino, Isao Goto, Win Pa Pa, Anoop Kunchukuttan, Shantipriya Parida, Ondřej Bojar, and Sadao Kurohashi. Overview of the 7th Workshop on Asian Translation. In Proceedings of the 7th Workshop on Asian Translation (WAT2020), pp. 1-44, Online, December, 2020. [paper]
Toshiaki Nakazawa, Nobushige Doi, Shohei Higashiyama, Chenchen Ding, Raj Dabre, Hideya Mino, Isao Goto, Win Pa Pa, Anoop Kunchukuttan, Shantipriya Parida, Ondřej Bojar, and Sadao Kurohashi. Overview of the 6th Workshop on Asian Translation. In Proceedings of the 6th Workshop on Asian Translation (WAT2019), pp. 1-35, Hong Kong, November 2019. [paper]
Toshiaki Nakazawa, Katsuhito Sudoh, Shohei Higashiyama, Chenchen Ding, Raj Dabre, Hideya Mino, Isao Goto, Win Pa Pa, Anoop Kunchukuttan, and Sadao Kurohashi. Overview of the 5th Workshop on Asian Translation. In Proceedings of the 5th Workshop on Asian Translation (WAT2018), Hong Kong, December 2018. [paper]
Toshiaki Nakazawa, Shohei Higashiyama, Chenchen Ding, Hideya Mino, Isao Goto, Hideto Kazawa, Yusuke Oda, Graham Neubig, and Sadao Kurohashi. Overview of the 4th Workshop on Asian Translation, In Proceedings of the 4th Workshop on Asian Translation (WAT2017). Taipei, Taiwan, November 2017. [paper]
Shohei Higashiyama, Kazuhiro Seki, and Kuniaki Uehara. Clinical Entity Recognition Using Cost-Sensitive Structured Perceptron for NTCIR-10 MedNLP. In Proceedings of 10th NTCIR Conference, Tokyo, Japan, June 2013. [paper]
Preprints
東山翔平,内山将夫.日本語エンティティリンキングコーパスの構築に向けた予備的アノテーション.Jxiv,2023年8月. [paper]
Shohei Higashiyama, Hiroki Ouchi, Hiroki Teranishi, Hiroyuki Otomo, Yusuke Ide, Aitaro Yamamoto, Hiroyuki Shindo, Yuki Matsuda, Shoko Wakamiya, Naoya Inoue, Ikuya Yamada, and Taro Watanabe. Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation. arXiv:2305.13844, May 2023. [paper]
The reviewed version with significant updates was published at the EACL 2024 Findings.
Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue, Shohei Higashiyama, Satoshi Nakamura, and Taro Watanabe. Arukikata Travelogue Dataset. arXiv:2305.11444, May 2023. [paper]
Shohei Higashiyama, Masao Utiyama, Taro Watanabe, and Eiichiro Sumita. User-Generated Text Corpus for Evaluating Japanese Morphological Analysis and Lexical Normalization. arXiv:2104.03523, April 2021. [paper]
The reviewed version was published at NAACL-HLT 2021.
Domestic Conference Papers
山本和太郎,大友寛之,大内啓樹,東山翔平,寺西裕紀,進藤裕之,渡辺太郎.移動軌跡解析:文章中の人物の地理的な移動を読み取る.言語処理学会第30回年次大会 (NLP2024),神戸,2024年3月. [paper]
中谷響,寺西裕紀,東山翔平,大内啓樹,渡辺太郎.メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング.言語処理学会第30回年次大会 (NLP2024),神戸,2024年3月. [paper]
東山翔平,大内啓樹,寺西裕紀,大友寛之,井手佑翼,山本和太郎,進藤裕之,渡辺太郎.日本語旅行記ジオパージングデータセット ATD-MCL.言語処理学会第30回年次大会 (NLP2024),神戸,2024年3月. [paper] [slide] [dataset] [code] 委員特別賞 (Committee Special Award)
武内 樹治,大内啓樹,東山翔平.歴史災害史料からの自動地名抽出に向けた自然言語処理システムの性能評価.人文科学とコンピュータシンポジウム2023 (じんもんこん2023),オンライン,2023年12月.[paper]
片山歩希,東山翔平,大内啓樹,渡辺太郎.歴史的日本語資料を対象とした場所参照表現抽出 —「おくのほそ道」を例として— ,第25回音声言語シンポジウム兼第10回自然言語処理シンポジウム(第258回 自然言語処理研究発表会),東京,2023年12月.[paper]
大内啓樹,中谷響,東山翔平,寺西裕紀,渡辺太郎.文章から地理空間を取り出すー場所を表す言語表現の抽出と地図データベースへの接続ー.第32回地理情報システム学会学術研究発表大会,調布,2023年10月.[paper]
山本和太郎,東山翔平,大内啓樹,大友寛之,井手佑翼,進藤裕之,渡辺太郎.移動軌跡可視化のための旅行記への訪問順序アノテーション.2023年度人工知能学会全国大会,熊本,2023年6月. [paper]
東山翔平,今村賢治,内山将夫,隅田英一郎.GCP同時通訳コーパスの構築.言語処理学会第29回年次大会 (NLP2023),pp. 1405-1410,宜野湾,2023年3月. [paper] [poster] (The poster file includes the correction information for Table 5 of the paper.)
大内啓樹,進藤裕之,若宮翔子,松田裕貴,井之上直也,東山翔平,中村哲,渡辺太郎.地球の歩き方旅行記データセット.言語処理学会第29回年次大会 (NLP2023),pp. 2920-2924,宜野湾,2023年3月. [paper] [data]
大友寛之,東山翔平,大内啓樹,山本和太郎,井手佑翼,進藤裕之,渡辺太郎.旅行記中の場所に対する訪問状態の予測.言語処理学会第29回年次大会 (NLP2023),pp. 2925-2930,宜野湾,2023年3月. [paper]
久本空海,西尾悟,井口奏大,古川泰人,大友寛之,東山翔平,大内啓樹.場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察.言語処理学会第29回年次大会 (NLP2023),pp. 2645-2650,宜野湾,2023年3月. [paper] [slide]
坂本陽平,笈田佳彰,出内将夫,岡田伊策,内山将夫,東山翔平,小野淳也,隅田英一郎.ニューラル翻訳による教師データ増殖手法を用いたERPパッケージ部品推薦機能の精度向上.人工知能学会 第2種研究会 知識・技術・技能の伝承支援研究会 (SIG-KST),横浜,2018年11月. [paper]
東山翔平,大西貴士,渡邉陽太郎.任意の係り受けパターンを対象とした事態間知識の獲得.2016年度人工知能学会全国大会,北九州,2016年6月. [paper]
東山翔平,ブロンデルマチュー,関和広,上原邦昭.カテゴリ階層を考慮した構造化パーセプトロンによる固有表現抽出.情報処理学会研究報告 数理モデル化と問題解決,Vol. 32,No. 25,pp. 1-6,京都,2012年11月. [paper]
東山翔平,Mathieu Blondel,関和広,上原邦昭.カテゴリ階層を考慮した固有表現抽出.情報処理学会第74回全国大会,名古屋,2012年3月. 学生奨励賞
Other Articles
東山翔平.第6回自動翻訳シンポジウム参加報告.AAMTジャーナル,No. 78,2023年6月,pp. 49-54. [article]
東山翔平.日本語テキスト正規化.情報通信研究機構研究報告「ユニバーサルコミュニケーション技術特集」,Vol. 68,No. 2,pp. 65-72,2022年12月.[article]
東山翔平.第5回自動翻訳シンポジウム参加報告.AAMTジャーナル,No. 76,2022年6月,pp. 42-44. [article]
東山翔平.“Character-to-Word Attention for Word Segmentation” の研究過程.自然言語処理,Vol. 28,No. 2,pp. 688-693,2021年6月. [article]
東山翔平.2020年度第1回JTF関西セミナー『製薬業界におけるAI翻訳の現状と将来性』参加報告.AAMTジャーナル,No. 73,pp. 45-48,2020年12月. [article]
Domestic Conference Presentations
片山歩希,東山翔平,大内啓樹,渡辺太郎.ChatGPT で「おくのほそ道」を読む―近世紀行文における場所参照表現の認識―.NLP若手の会 (YANS) 第18回シンポジウム,2023年8月.
中谷響,寺西裕紀,東山翔平,大内啓樹,渡辺太郎.文章から地図へ:テキストジオグラウンディングシステムの開発.NLP若手の会 (YANS) 第18回シンポジウム,2023年8月.デモ賞 [第一著者]
山本和太郎,東山翔平,大友寛之,大内啓樹,渡辺太郎.旅行者の移動軌跡を地図上に描くための訪問順序アノテーション.NLP若手の会 (YANS) 第17回シンポジウム,2022年8月.
Talks
東山翔平.コーパスアノテーションと言語現象の体系化の試み.NLP若手の会 (YANS) 第18回シンポジウム 招待セッション,2023年8月31日.
東山翔平.Character-to-Word Attention for Word Segmentation.言語処理学会第27回年次大会 招待論文,2021年3月18日.[slide]
Theses
Shohei Higashiyama. Word Segmentation and Lexical Normalization for Unsegmented Languages. Doctoral Dissertation, Nara Institute of Science and Technology, March 2022. [thesis] [slide] [slide (mirror)]
東山翔平,医療用語コーパスの語彙拡張を利用した病歴要約からの情報抽出,神戸大学大学院 システム情報学研究科 修士論文,2014年3月.
東山翔平,カテゴリ階層を利用した構造化パーセプトロンによる固有表現抽出,神戸大学 工学部 情報知能工学科 卒業論文,2012年3月.