言語処理学会第24回年次大会ワークショップ
形態素解析の今とこれから
「形態素解析だョ!全員集合」
開催趣旨
単語分割・形態素解析技術は、日本語を対象にした自然言語処理研究・開発において避けて通れない処理として認識されており、これまで、数多くの辞書・システムが開発されてきました。ユーザの選択肢が増えた利点はあるものの、既存の形態素解析器・辞書・品詞体系から、応用に則したシステムを選択することは、言語処理研究者でも難しく、なんとなく新しそうだから、研究室の方針だから、先輩が使っていたからといった、場当たり的な基準で選択されていることが少なくありません。本ワークショップでは、単語分割・形態素解システム、辞書の開発者にお集まりいただき、各システムの特徴、開発方針、想定ユーザ、他のシステムとの違いを明らかにすると共に、応用処理と形態素解析システムとのベストマッチングを支援することを目的としています。また、ニューラルネットワーク言語処理におけるサブワード化のように、単語分割そのものの必要性が揺らぎつつある現状を踏まえ、再度、単語分割・形態素解析の研究・応用における立ち位置をみなさんで議論したいと思います。
News
プログラムを公開しました.
スケジュール
発表申込受付開始:2018/01/11発表申込受付締切:2018/2/28プログラム公開:2018/3/5ワークショップ:2018/3/16(金)
プログラム
受付開始 (9:05-9:30)
準備
開催趣旨 (9:30-9:35)
工藤 拓 (Google合同会社)
招待発表 (9:35-12:15)
[9:35-10:00] 「形態素解析システム JUMAN++ 」 河原大輔, Arseny Tolmachev (京都大学 大学院情報学研究科) [発表資料]
本発表では、形態素解析システムJUMAN++について紹介する。JUMAN++は、RNN言語モデルを利用することによって、単語の並びの意味的な自然さを考慮した解析を行う。また、基本辞書として、3万語程度についてさまざまな語彙情報・意味情報を人手で正確に整備した辞書をJUMANから継承して用いている。その範囲を超える語彙については、Wikipediaやウェブコーパスなどからの自動獲得した辞書を用いている。本発表では、JUMAN++の基本的な考え方から実装方法、また他の形態素解析シテムとの比較について説明する。
[10:00-10:25] 「汎用形態素解析システムMeCab」工藤拓 (グーグル合同会社) [発表資料]
MeCabは研究、実応用問わず幅広く使われている最もメジャーな形態素解析である。本発表では、MeCabが誕生した歴史的背景と設計、開発方針について説明する
[10:25-10:50] 「日本語の単語分割・品詞推定 あるいは KyTea の話」 森 信介 (京都大学学術情報メディアセンター [発表資料]
形態素解析には、「不都合な真実」がある。すなわち、実際の多くの応用において論文に報告されている程度の精度が出ず、精度向上には言語資源の追加が最も効果的であるという事実である。このような認識から、対象のテキストについて求める処理の十分な精度を効率良く実現するために、形態素解析を単語分割と各単語のラベル推定に分解することを提案し、その実現ツールとしてKyTea を公開している。本発表では、このような背景やツールについて述べる。
[10:50-11:00] 休憩
[11:00-11:25] 「製品利用可能な形態素解析器 Sudachi」 高岡一馬 (株式会社ワークスアプリケーションズ)
Sudachi は企業活動の一環として製品利用に耐えうる形態素解析器とすべく開発をおこなっている。前提として実際の製品利用においてどのような機能と解析クオリティがもとめられているかを紹介する。アプリケーションは全文検索からテキストマイニング、対話など多岐にわたり目的ごとに求められる解析内容がことなる。それに対しわれわれは特に分割の粒度に着目し複数粒度の分割を同時に出力できるリソースを作成した。またNLP技術者以外の利用を容易にするため、これまで個別におこなわれてきた前処理・後処理のノウハウをプラグイン機構で集約・共有することを狙っている。
[11:25-11:50] 「電子化辞書『UniDic』を中心に見たリレーショナル・データベースによる統合的言語資源管理環境」 岡 照晃 中村 壮範 (国立国語研究所 コーパス開発センター) [発表資料]
国立国語研究所で開発している電子化辞書『UniDic』は現在,形態素解析器MeCab用の解析用辞書『解析用UniDic』のみを外部に公開している.そのため所外の多くのユーザには,『UniDic』イコールMeCabの辞書,として認知されている.しかし『UniDic』の元々の制作意図は,国語研所内で構築するコーパスアノテーションを統制するための辞書引きデータベース『UniDicデータベース』としての側面にある.本発表では,現在の国語研所内での『UniDic』を使ったコーパス構築の流れについて概説し,その中での『解析用UniDic』の位置づけと,これからの公開方針について述べる.
[11:50-12:15] 「 単語分かち書き用辞書生成システム NEologd の現状と今後」佐藤 敏紀 (LINE株式会社)
我々は, 単語分かち書き用の辞書生成に必要な資源を収集するための NEologd というシステムを運用し, 単語分かち書き用の辞書である mecab-ipadic-NEologd を継続的に更新している. 本発表では現在までに明らかになった mecab-ipadic-NEologd の実社会における活用方法や, 解決できた既存の形態素解析・固有表現抽出技術の課題, 解決できなかった課題について概観した結果を示し, それらを踏まえ NEologd を今後どの様に発展させるかを述べる.
招待講演 (13:30-14:15)
タイトル: 形態素解析辞書で曖昧性解消に挑む
講演者:坂本美保氏
所属: 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所
概要:
形態素解析の基本機能は、文を形態素に分割し各々の形態素の品詞を判別することだが、自然言語処理を必要とするアプリケーションに応用するとなると、さらに詳細な語句認識が求められることが多い。例えば、異なる表記でも同じ語(表記揺れ)であると認識したり、あるいは同じ表記でも異なる語(同表記異義語)であると認識できること等が期待される。本発表では、これまで様々なアプリケーションの辞書開発に携わってきた筆者の経験を元に、アプリケーションへの応用を前提とした形態素解析辞書の構築ノウハウについて紹介する。基本的な語彙から応用先の機能に関連性の高い語彙に至るまで、どのように採否を決定し情報付けを行うか、具体例とともに紹介する。また最後に、当社で開発した最新の形態素解析器Sudachiの辞書データについて、その特色を簡単に紹介する。
講演者略歴:
1990年~2015年 株式会社ジャストシステム 勤務
2017年~ 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所 勤務
一般発表 (14:30-15:15)
[14:30-14:45]「 漢文、やらないか?」安岡孝一 (京都大学人文科学研究所附属東アジア人文情報学研究センター) [発表資料]
http://id.nii.ac.jp/1001/00185742/ の内容を圧縮して話します。
[14:45-15:00] 「形態素解析が日本語教育に与えたインパクト 」岩田一成 (聖心女子大学) [発表資料]
日本語教育という分野は文法と語彙の数でレベル(日本語能力試験の級)が設定されている。しかし語彙は数が多いため、そのレベルの妥当性や現実場面との関連を調査することが難しかった。形態素解析器の出現により、例えば製造業のラインで使われている語彙はどういったものがあって、そのレベルはどういう語彙が使われているのかといったことがデータとともに示せるようになった。つまり、データを元にした議論ができるようになったと言える。最後に「雪だるま」の紹介をしてから、日本語教育の分野で使いやすい形態素解析とはどういったものか述べる。
[15:00-15:15] 「検索サービスにSudachiを適用して運用コストを削減した話」佐々木 峻 (Acroquest Techonology株式会社) [発表資料]
Elasticsearchでの日本語検索用の形態素解析器として、kuromojiを使用した場合に表記揺れへの対応という課題がある。これらの課題についてkuromojiで対応する場合の問題点と新たにSudachiの実案件での利活用で得られた、運用コストの削減などの効果をElasticsearchのユーザ企業としてフィードバックする。
ライトニングトーク (15:20-15:50 1人5分以内)
「ぎなた読みの自動生成の試み」林部 祐太 [発表資料]
本来の意図とは異なって解釈されてしまう形態素解析誤りを見つけるのは楽しい.(例: |長いも|と|豚肉| → |長い|もと|豚肉| )そのような誤りを本発表では「ぎなた読み」とよび,自動生成を試みた.
「NEologd をWebアプリで利用したときに困ったこと 」吉岡 康平 (ピクシブ株式会社) [発表資料]
pixivコミック (https://comic.pixiv.net/) というサービスでは MeCab と NEologd を使っております。 (詳細) 本発表では、ユーザからのフィードバックとして、NEologd による MeCab の辞書の自動更新が実現できなかった経緯や、実際に運用してから問題になった点などについてお話しできればと思っております。
「音声 AI で MeCab を使って感じたこと」中村謙弘 (SoundHound Inc.) [発表資料]
概要: SoundHound Inc. では音声 AI を開発しており、日本語版では随所で MeCab を利用しています。どのように使われているかや、利用を通して感じた MeCab へのリクエストなど、雑多な内容をお話させていただきます。
「ヤフーにおける形態素解析 形態素解析器をエンジニアリングするときの問題点」高橋文彦 (ヤフー株式会社) [発表資料]
形態素解析器をエンジニアリングするときの問題点(解析一貫性や辞書更新の影響など)とそれに対するヤフーでの取り組みを紹介します。
「RNNを用いた日本語単語分割/品詞タグ付けツールの紹介」池田 大志 (NTTドコモ) [発表資料]
現在、RNNを用いた系列ラベリングによる日本語単語分割/品詞タグ付けツール(https://github.com/taishi-i/nagisa)の開発を行っている。本発表では、システムの特徴と解析手法として系列ラベリングを用いた場合の実用性におけるシステムの問題点(精度、解析速度)について説明する。
「古文の形態素解析」 小木曽智信 (国立国語研究所)
概要: 形態素解析は、日本語学やコーパス言語学のみならず、古典研究などの人文科学の分野(人文情報学)でも利用が広がっている。発表者は国立国語研究所において『日本語歴史コーパス』の構築のため、UniDicをベースとした古文の形態素解析のための辞書構築を行ってきた。本発表ではこれらの言語資源と、日本の人文科学における形態素解析の利用状況について述べる。
パネルディスカッション (16:00-16:50)
パネリスト: 森 河原 高岡 岡 佐藤 工藤 (進行) +スペシャルゲスト
- ニューラル End-to-End 時代の基礎解析研究・開発のあり方
- 辞書が先かコーパスが先か論争
- 応用と形態素解析システムのマッチング
- 実応用で必要とされている機能の洗い出し
クロージング (16:50-17:00)
発表申し込み
締め切りました
参加申し込み
年次大会参加費にワークショップ参加費が含まれます。年次大会へのお申し込みをお願いいたします。
開催情報
会場:岡山コンベンションセンター(ママカリフォーラム) 1Fホール右(中継:3F301)
所在地:〒700-0024 岡山県岡山市北区駅元町 14 番 1 号
JR 岡山駅 中央改札口から徒歩約 3 分(地図)
受付 9:05
会議 9:30-17:00
オーガナイザ
- 工藤 拓 (グーグル)
- 河原 大輔 (京都大学)
- 山本 和英 (長岡技術科学大学)
- 森 信介 (京都大学)
- 持橋 大地 (統計数理研究所)
- 鍜治 伸裕 (ヤフー)
- 颯々野 学 (ヤフー)
- 小木曽 智信 (国立国語研究所)
- 斉藤 いつみ (NTT)
- 内海 慶 (デンソーアイティーラボラトリ)
- 岡 照晃 (国立国語研究所)
- 高岡 一馬 (ワークスアプリケーションズ)
- 佐藤 敏紀 (LINE)