NLP2023 論文:https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B12-1.pdf
arXiv 論文:https://arxiv.org/abs/2305.11444
概要:「地球の歩き方旅行記データセット」を構築し,学術研究用に無償提供しています.日本語で書かれた 4,500 の国内旅行記と 9,500 の海外旅行記から構成され,全体で 3,100万単語を超える規模となります.
EACL Findings 論文:https://aclanthology.org/2024.findings-eacl.35/
言語処理学会年次大会論文:https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D4-5.pdf
ブログ:https://qiita.com/shigashiyama/items/df4d344df4a2cd5deda1
概要:日本語の旅行記である「地球の歩き方旅行記データセット」と地理データベース OpenStreetMap(OSM)を利用して,ジオパージングデータセット を構築し,公開しています.ATD-MCL とは,"Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation" の略であり,使用している原データおよび新たに付与した情報(Mention=場所参照表現、Coreference=共参照、Link=データベースエントリ)の内容に由来します.
日本語海外旅行記ジオパージングデータセット ATD-MCL-Overseas
概要:ATD-MCL の海外旅行記版
ATD-MCL-baselines
概要:ATD-MCL の実験コード・評価スクリプト
LUKE-NER
概要:LUKE を用いたスパンベース NER モデルの実装
LUKE-NER on Google Colaboratory
リンク:colab.research.google.com/drive/1BI2hxfOzxyT7mET8OzJ7RbF7zFCvqSEo?usp=sharing
概要:上記LUKE-NERをGoogle Colaboratory上で動作させるページ
LUKE-NER fine-tuned model
リンク:https://huggingface.co/naist-nlp/mluke-large-lite-finetuned-atd
概要:LUKE-NER コードを使用し、studio-ousia/mluke-large-lite を ATD-MCL training data で fine-tuning したモデル(詳細は論文参照)
LUKE-Coref
概要:LUKE を用いた先行詞予測型共参照解析モデルの実装
NLP4DH 2024 論文:https://aclanthology.org/2024.nlp4dh-1.33/
概要:近世・近代の日本語歴史的紀行文に場所参照表現をアノテーションしたデータ
LREC-COLING 2024 論文:https://aclanthology.org/2024.lrec-main.333
概要:英語・インドネシア語 各 44 記事のコンパラブルな旅行記コーパスに,地名・施設名等のメンションを付与したデータセット.