データ:TBA(https://github.com/shigashiyama/jhpt にて公開予定)
データ:TBA
データ:TBA
論文:NLP 2025 論文
データ:https://alaginrc.nict.go.jp/jpo-outline.html(ALAGIN 会員のみ利用申請可)
論文:WMT 2024 論文
概要:Workshop on Asian Translation(WAT)の Patent Task で使用された特許対訳コーパス
日本語旅行記移動軌跡抽出データセット ATD-VSO(公開準備中)
概要:近世・近代の日本語歴史的紀行文に場所参照表現をアノテーションしたデータ
概要:日本語行政機関ウェブ文書テキストへの固有表現スパン・Wikidataエンティティリンク情報アノテーションデータ
論文:IPSJ-NL研 2024 論文(8.3節にて言及)
概要:英語エンティティリンキングデータセット(VoxEL、MEANTIME、Linked-DocRed)に対し、原文の MTPE によって作成した、固有表現スパン・知識ベースリンク情報アノテーションを含む英日対訳データ
データ:TBA(https://github.com/shigashiyama/jmln にて公開予定)
概要:多分野の日本語ユーザ生成テキストへの形態素解析・単語正規化情報アノテーションデータ.BQNC の929文を多分野に拡張し、21,402文に拡大.
概要:日本語ユーザ生成テキストへの形態素解析・単語正規化情報アノテーションデータ
概要:27の専門分野テキストへの単語分割・品詞情報アノテーションデータ