単語分散表現
様々な自然言語処理タスクの基盤である単語分散表現を改良する研究に取り組んでいます
多義語の表現
word2vecなどの単語分散表現は、1単語に1ベクトルを割り当てるため、多義語において各語義を区別できません
本研究では、依存関係にある単語を考慮して各単語に複数のベクトルを割り当て、多義語の表現を改善します
例えば、「soft candy」という文脈での soft と「soft drink」という文脈での soft に、異なるベクトルを割り当てられます
芦原和樹, 梶原智之, 荒瀬由紀, 内田諭. 多義語分散表現の文脈化. 自然言語処理, Vol.26, No.4, pp.689-710, December 2019. [PDF]
Kazuki Ashihara, Tomoyuki Kajiwara, Yuki Arase, Satoru Uchida. Contextualized context2vec. In Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019), pp.397-406, Hong Kong, China, November 2019.(採択率65%)[PDF] [Poster]
【スポンサー賞】芦原和樹, 梶原智之, 荒瀬由紀, 内田諭. 文脈ベクトルと細分化した単語ベクトルを用いた語彙的換言. NLP若手の会第14回シンポジウム, P76, August 2019. [Poster]
Kazuki Ashihara, Tomoyuki Kajiwara, Yuki Arase, Satoru Uchida. Contextualized Word Representations for Multi-Sense Embedding. In Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation (PACLIC 32), pp.28-36, Hong Kong, China, December 2018.(採択率55%)[PDF] [Poster]
芦原和樹, 梶原智之, 荒瀬由紀, 内田諭. 依存構造に基づく単語から語義の分散表現への細分化. 情報処理学会第237回自然言語処理研究会, Vol.2018-NL-237, No.3, pp.1-7, September 2018. [PDF] [Slides]
未知語の表現
word2vecなどの単語分散表現は、訓練データ中に出現しなかった単語に対してはベクトルを得ることができません
しかし人間は、初めて見た単語「datability」の意味を「data」や「ability」から推定できます
このように、本研究では部分文字列から未知語の単語ベクトルを構成する方法を提案します
大橋空, 五十川真生, 梶原智之, 荒瀬由紀. 大域的な類似度に基づく単語分散表現の圧縮. 自然言語処理, Vol.28, No.1, pp.235-252, March 2021. [PDF]
Sora Ohashi, Mao Isogawa, Tomoyuki Kajiwara, Yuki Arase. Tiny Word Embeddings Using Globally Informed Reconstruction. In Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020), pp.1199-1203, Barcelona, Spain, December 2020.(採択率26%)[PDF] [Poster]
五十川真生, 梶原智之, 荒瀬由紀. 大域的な類似度と部分文字列を用いた未知語分散表現の生成手法. 言語処理学会第25回年次大会, pp.1049-1052, March 2019. [PDF] [Poster]
五十川真生, 梶原智之, 荒瀬由紀. 大域的な類似度を考慮した未知語分散表現. NLP若手の会第13回シンポジウム, P21, August 2018. [Poster]