言語学習者や子どもの読解支援のために、テキスト中の難解な語句を平易に言い換える研究に取り組んでいます
テキストの中から読者にとって難解な語句を検出する研究に取り組んでいます
言語学習に関するワークショップ BEA (Workshop on Innovative Use of NLP for Building Educational Applications) において開催された難解語検出コンペ (Complex Word Identification Shared Task 2018) に参加し、英語・スペイン語・ドイツ語など、12トラック中5トラックで世界最高性能を達成しました
日本語の語彙平易化システムの性能を自動評価するためのデータセットを公開しています
現代日本語書き言葉均衡コーパス (BCCWJ) をもとに作っておりますので、ご利用の前にBCCWJをご用意ください
例えば「小学生になると、専ら家の近くの海で遊んだ」というテキストが収録されており、「専ら」が語彙平易化の対象単語です
平易な言い換えとしては、「主に」「ひたすら」が収録されており、システムがいずれかの単語を出力できれば正解となります
梶原智之, 西原大貴, 小平知範, 小町守. 日本語の語彙平易化のための言語資源の整備. 自然言語処理, Vol.27, No.4, pp.801-824, December 2020. [PDF] [Code]
Tomonori Kodaira, Tomoyuki Kajiwara, Mamoru Komachi. Controlled and Balanced Dataset for Japanese Lexical Simplification. In Proceedings of the ACL 2016 Student Research Workshop (ACL 2016 SRW), pp.1-7, Berlin, Germany, August 2016.(採択率36%)[PDF] [Poster]
小平知範, 梶原智之, 小町守. 均衡コーパスを用いた日本語語彙平易化データセットの構築. 言語処理学会第22回年次大会, pp.258-261, March 2016. [PDF] [Poster]
小平知範, 梶原智之, 小町守. 語彙平易化システムの評価のためのデータセットの改良. NLP若手の会第10回シンポジウム, P14, September 2015. [PDF] [Poster]
旧バージョンのSNOW E4はニュースのドメインに特化したデータセットです
Tomoyuki Kajiwara, Kazuhide Yamamoto. Evaluation Dataset and System for Japanese Lexical Simplification. In Proceedings of the ACL-IJCNLP 2015 Student Research Workshop (ACL 2015 SRW), pp.35-40, Beijing, China, July 2015.(採択率31%)[PDF] [Slides] [Poster]
梶原智之, 山本和英. 日本語の語彙平易化評価セットの構築. 言語処理学会第21回年次大会, pp.501-504, March 2015. [PDF] [Slides]
日本語の単語難易度辞書および難解な単語から平易な単語への言い換え辞書を公開しています
単語難易度辞書は、日本語教育語彙表をもとに構築した単語難易度推定器を用いて、約4万単語に3段階の難易度を付与したものです
例えば「夕食」には初級、「ディナー」には中級、「晩餐」には上級の難易度が付与されています
平易な言い換え辞書は、PPDB: Japaneseの言い換え対のうち、上級→中級・上級→初級・中級→初級の単語対を抽出したものです
例えば「講評→レビュー」は上級→中級、「頸部→首」は上級→初級、「食塩→塩」は中級→初級の言い換え対です
梶原智之, 西原大貴, 小平知範, 小町守. 日本語の語彙平易化のための言語資源の整備. 自然言語処理, Vol.27, No.4, pp.801-824, December 2020. [PDF] [Code]
Daiki Nishihara, Tomoyuki Kajiwara. Word Complexity Estimation for Japanese Lexical Simplification. In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020), pp.3107-3113, Marseille, France, May 2020.(採択率60%)[PDF] [Code]
梶原智之, 小町守. Simple PPDB: Japanese. 言語処理学会第23回年次大会, pp.529-532, March 2017. [PDF] [Poster]
「言い換え候補の獲得」と「言い換え候補のランキング」の2ステップからなる日本語の語彙平易化システムを公開しています
候補の獲得は、「辞書に基づく手法」「パラレルコーパスに基づく手法」「分布類似度に基づく手法」の3つをサポートしています
辞書に基づく手法:Pavlick and Callison-Burch (ACL-2016) のように、難解な単語から平易な単語への言い換え辞書を用いて候補を獲得します。日本語では、我々の平易な言い換え辞書などを使用することができます。
パラレルコーパスに基づく手法:Horn et al. (ACL-2014) のように、難解な文と平易な文のパラレルコーパスを用いて候補を獲得します。日本語では、やさしい日本語コーパスなどを使用することができます。
分布類似度に基づく手法:Glavaš and Štajner (ACL-2015) のように、単語分散表現を用いて候補を獲得します
ランキングは、「頻度に基づく手法」「平均ランキングに基づく手法」の2つをサポートしています
頻度に基づく手法:Paetzold and Specia (AAAI-2016) のように、N-gram言語モデルを用いて候補をランキングします
平均ランキングに基づく手法:Glavaš and Štajner (ACL-2015) のように、単語間の意味的類似度や単語頻度などの複数の指標に基づいて候補をランキングします
BERT-LS (Qiang et al., AAAI-2020) のBERTに基づく候補の獲得およびランキングにも対応しました
梶原智之, 西原大貴, 小平知範, 小町守. 日本語の語彙平易化のための言語資源の整備. 自然言語処理, Vol.27, No.4, pp.801-824, December 2020. [PDF] [Code]
Daiki Nishihara, Tomoyuki Kajiwara. Word Complexity Estimation for Japanese Lexical Simplification. In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020), pp.3107-3113, Marseille, France, May 2020.(採択率60%)[PDF] [Code]
単語難易度や語彙的換言に関する複数の言語資源を組み合わせた日本語の語彙平易化システムを構築しました
Tomoyuki Kajiwara, Kazuhide Yamamoto. Evaluation Dataset and System for Japanese Lexical Simplification. In Proceedings of the ACL-IJCNLP 2015 Student Research Workshop (ACL 2015 SRW), pp.35-40, Beijing, China, July 2015.(採択率31%)[PDF] [Slides] [Poster]
【学生奨励賞】梶原智之, 山本和英. 日本語の語彙平易化システムの構築. 情報処理学会第77回全国大会講演論文集(第2分冊), pp.167-168, March 2015. [PDF] [Slides]
辞書の定義文から見出し語の平易な言い換えを獲得する日本語の語彙平易化システムを構築しました
梶原智之, 山本和英. 語釈文を用いた小学生のための語彙平易化. 情報処理学会論文誌, Vol.56, No.3, pp.983-992, March 2015. [PDF]
Tomoyuki Kajiwara, Hiroshi Matsumoto, Kazuhide Yamamoto. Selecting Proper Lexical Paraphrase for Children. In Proceedings of the 25th Conference on Computational Linguistics and Speech Processing (ROCLING 2013), pp.769-772, Kaohsiung, Taiwan, October 2013.(採択率71%)[PDF] [Slides]
梶原智之, 山本和英. 小学生の読解支援に向けた語釈文から語彙的換言を選択する手法. ALAGIN&NLP若手の会合同シンポジウム, 発表23, September 2013. [PDF] [Slides]
梶原智之, 山本和英. 小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価. 言語処理学会第19回年次大会, pp.272-275, March 2013. [PDF] [Slides]
【奨励賞】梶原智之, 山本和英. 小学生の読解支援に向けた語釈文による換言. NLP若手の会第7回シンポジウム, 発表1, September 2012. [PDF] [Slides]