Resources & Software
Resources & Software
地球の歩き方旅行記データセット
地球の歩き方旅行記データセット
NLP2023 論文:https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B12-1.pdf
arXiv 論文:https://arxiv.org/abs/2305.11444
概要:「地球の歩き方旅行記データセット」を構築し,学術研究用に無償提供しています.日本語で書かれた 4,500 の国内旅行記と 9,500 の海外旅行記から構成され,全体で 3,100万単語を超える規模となります.
日本語旅行記ジオパージングデータセット ATD-MCL
日本語旅行記ジオパージングデータセット ATD-MCL
arXiv 論文:https://arxiv.org/abs/2305.13844
ブログ:https://qiita.com/shigashiyama/items/df4d344df4a2cd5deda1
概要:日本語の旅行記である「地球の歩き方旅行記データセット」と地理データベース OpenStreetMap(OSM)を利用して,ジオパージングデータセット を構築し,公開しています.ATD-MCL とは,"Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation" の略であり,使用している原データおよび新たに付与した情報(Mention=場所参照表現、Coreference=共参照、Link=データベースエントリ)の内容に由来します.
関連ツール
関連ツール
ATD-MCL-baselines
概要:ATD-MCL の実験コード・評価スクリプト
LUKE-NER
概要:LUKE を用いたスパンベース NER モデルの実装
LUKE-Coref
概要:LUKE を用いた先行詞予測型共参照解析モデルの実装