各種ツール

Wikipedia 記事の整形・前処理や,質問応答データセットの生成に利用できるツールを公開しています.各種実験にお役立てください.

Wikipedia 記事の前処理

singletongue/wikipedia-utils (GitHub)

Wikipedia のテキストを前処理して便利に使うための各種スクリプトです.Wikimedia REST API を使って記事の HTML を取得することや,HTML から抽出したテキストを用いて段落単位や適度な文長のパッセージの集合を生成することができます.前処理済みテキストのダウンロードも可能です.

質問応答データセットの生成

cl-tohoku/quiz-datasets (GitHub)

全文検索エンジンを用いてクイズ問題に WIkipedia 記事のテキストを付与し,DPR 形式の読解型質問応答のデータセットを生成するプログラムです