NAIST旅行記データセット利用申請フォーム / Application Form for Using NAIST ATD:https://forms.gle/BM7SMCVoEqLLhXFQ8
概要:日本語で書かれた 4,500 の国内旅行記と 9,500 の海外旅行記から構成され,全体で 3,100万単語を超える規模となります.本データは,学術研究機関(大学,公的研究機関,その他これに準ずる非営利の研究機関)に所属する研究者に無償提供しています.また本データは,学術研究目的に限り利用可能であり,商用利用は禁止されています.
Overview: This dataset consists of 4,500 domestic travelogues and 9,500 overseas travelogues written in Japanese, with a total size of more than 31 million words. It is provided free of charge to researchers affiliated with academic research institutions (universities, public research institutes, and other comparable non-profit research organizations). The dataset may be used only for academic research purposes, and commercial use is not permitted.
データ / Data:https://github.com/naist-nlp/atd-mcl
EACL Findings:https://aclanthology.org/2024.findings-eacl.35/
言語処理学会年次大会 / Annual Meeting of NLP:https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D4-5.pdf
ブログ / Blog:https://qiita.com/shigashiyama/items/df4d344df4a2cd5deda1
概要:日本語の旅行記である「NAIST旅行記データセット」と地理データベース OpenStreetMap(OSM)を利用して,ジオパージングデータセット を構築し,公開しています.本データセット名「ATD-MCL」 の「MCL」は,"Geographic Entity Mention, Coreference, and Link Annotation" の略であり,使用している原データおよび新たに付与した情報(Mention=場所参照表現、Coreference=共参照、Link=データベースエントリ)の内容に由来します.
Overview: Using NAIST ATD, a collection of Japanese travelogues, together with the OpenStreetMap (OSM) geographic database, we have constructed and released a geoparsing dataset. The name of this dataset, “MCL,” stands for “Geographic Entity Mention, Coreference, and Link Annotation.” It reflects both the original data used and the additional information we annotated, namely Mention (place-referring expressions), Coreference (coreferential relations), and Link (links to database entries).
ATD-MCL-Overseas: 日本語海外旅行記ジオパージングデータセット / Japanese Overseas Travelogue Geoparsing Dataset
概要:ATD-MCL の海外旅行記版
Overview: The overseas version of ATD-MCL
ATD-MCL-baselines
概要:ATD-MCL の実験コード・評価スクリプト
Overview: Code for experiments and evaluation of ATD-MCL
LUKE-NER
コード / Code:https://github.com/naist-nlp/luke-ner
概要:LUKE を用いたスパンベース NER モデルの実装
Overview: Implementation of a span-based model using LUKE
LUKE-NER on Google Colaboratory
リンク / Link:colab.research.google.com/drive/1BI2hxfOzxyT7mET8OzJ7RbF7zFCvqSEo?usp=sharing
概要:上記LUKE-NERをGoogle Colaboratory上で動作させるページ
Overview: Google Colaboratory using the above LUKE-NER
LUKE-NER fine-tuned model
リンク / Link:https://huggingface.co/naist-nlp/mluke-large-lite-finetuned-atd
概要:LUKE-NER コードを使用し、studio-ousia/mluke-large-lite を ATD-MCL training data で fine-tuning したモデル(詳細は論文参照)
Overview: A model fine-tuned on the ATD-MCL training data (see the paper for details), using the LUKE-NER code and the studio-ousia/mluke-large-lite model.
LUKE-Coref
コード / Code:https://github.com/naist-nlp/luke-coref
概要:LUKE を用いた先行詞予測型共参照解析モデルの実装
Overview: Implementation of an antecedent-prediction-based coreference resolution model using LUKE
データ / Data:https://github.com/naist-nlp/historical-travelogues
NLP4DH 2024 Paper:https://aclanthology.org/2024.nlp4dh-1.33/
概要:近世・近代の日本語歴史的紀行文に場所参照表現をアノテーションしたデータ
Overview: A dataset in which place-referring expressions have been annotated in early modern and modern Japanese historical travel writings.
データ / Data:https://github.com/naist-nlp/mtd-gem
LREC-COLING 2024 Paper:https://aclanthology.org/2024.lrec-main.333
概要:英語・インドネシア語 各 44 記事のコンパラブルな旅行記コーパスに,地名・施設名等のメンションを付与したデータセット.
Overview: A dataset in which mentions such as place names and facility names are annotated on a comparable travelogue corpus consisting of 44 articles each in English and Indonesian.