鶴岡慶雅(北陸先端大)
本研究では、基盤的な自然言語処理技術である、品詞タグ付け、固有表 現認識、構文解析など、構造予測問題と呼ばれるタスクに対する新しい 機械学習アプローチを提案する。提案手法は、解析アクションの履歴に 基づくアプローチをベースとしているが、従来手法と異なり、解析アク ションの先読み機構が学習モデルに統合されている。提案手法では、現 時点で可能なそれぞれの解析アクションに対して先読みを行い、その後 の解析アクションの系列によって達成される解析結果をもとに現時点で の最適なアクションを選択する。このことにより、非局所的に整合的で ない部分解析結果を排除することができ、高い精度での解析が可能にな っている。
2010年秋、情報処理学会から将棋連盟への「挑戦状」をうけて行われた 公開対局において、コンピュータは清水市代女流王将に勝利した。いま やコンピュータ将棋の実力は、プロ棋士のレベルに到達しつつあるとい われる。 本講演では、将棋プログラム「激指」の開発に関する話を中 心に、コンピュータ将棋、およびゲーム研究の現況について紹介する。 特に、近年のコンピュータ将棋の棋力向上の原動力となった、機械学習 による探索範囲制御、および評価関数の自動学習手法について詳細に述 べる。
参加者:29名
高村大也(東京工業大学)
Twitterなどのマイクロブログにおいては、スポーツ中継あるいはテレビ番組放映 中などに、それらに関するエントリが大量にポストされる。これらの大量のエン トリから、何が起こっているのか、ユーザはどのような意見を持っているのか、 などについての要約を生成するという研究課題を考え、これをエントリ選択とい う形で実現する。通常の文書要約問題で用いられる新聞記事などと比べると、マ イクロブログは、エントリ数が膨大であることと、各エントリが時間軸上に整列 しているという特徴を持つ。我々は、既存の施設配置文書要約モデルを、これら の特徴を考慮したモデルに拡張する。実験においては、スポーツの試合に関する エントリ集合の要約を行う。
萩原正人(楽天技術研究所)
固有名詞やそれらの間の関係は自然言語処理において重要な知識源である。これ まで、Espresso アルゴリズムや Tchaiアルゴリズムなど、ブートストラップに基 づき大規模コーパス等から漸次的に語彙知識を抽出する手法がいくつか提案され ている。しかし、これらの手法は、英語等の分かち書きされた文や、クエリログ など文脈を明確に定義できる言語資源のみを対象にしている。本発表では、日本 語の非分かち書き文であっても固有名詞カテゴリを直接抽出できるアルゴリズム g-Monaka を提案する。本手法は、文字 nグラムの隣接関係を有向グラフにより 表現し、グラフカーネルを適用することにより、意味ドリフト等の問題を回避し、 高精度な語彙知識抽出を可能にする。本発表では、g-Monakaアルゴリズムを用い て意味カテゴリを抽出した実験結果を報告し、Web を用いた実用スケールの応用 事例を紹介する。
参加者:35名
西村良太(豊橋技術科学大学)
人間と機械が音声対話によってやりとりを行う場合に,これまでの音声対話シス テムでは,人間同士の対話のように自然な対話を行うことは不可能である.人間 と機械が対話を行う際に,機械が人間同士の会話と同じように,相手に同調を示 すことができれば,より円滑な対話を行うことが期待できる.この為にまず,実 際の人間同士の対話コーパスにて,人間同士の対話の印象と韻律変化との間にど のような関係性があるのかを分析し,モデルを構築した.このモデルを音声対話 システムに実装することによって,人間同士の対話現象を模倣して応答すること が可能な音声対話システムを構築した.被験者実験の結果から,オーバーラップ を含む通常応答やあいづちに対して高い自然性が示され,被験者の多くがあいづ ちに対して親しみを感じた.
加藤芳秀(名古屋大学)
本発表では,構文木コーパスに含まれる誤りを自動訂正する手法を提案する.従 来の自動誤り訂正手法は,コーパス中のタグを別のタグに置き換える単純な誤り 訂正しか実現していない.これに対して,本発表で提案する手法では,同期文法 の一種である synchronous tree substitution grammar を用いることにより, 構造的な変換を伴う誤り訂正を実現する.構文木コーパスにおいてはタグが階層 的な構造をもつため,構造的な変換を伴う誤り訂正が必要になるが,本手法はこ れを可能にする.Penn Treebank を用いた誤り訂正実験により本手法を評価した のでそれについて報告する.
参加者:40名
森信介(京都大学)
実用に耐える言語処理を実現するためには、様々な分野のテキストに対して高い精度の 言語処理を短期間かつ安価に実現する必要がある。現在主流となっているコーパスに基づく 言語処理の大半の手法は、文の全ての部分に情報が付与されたフルアノテーションコーパス を前提とする。これに対し、本発表では、コーパスを部分的にアノテーションすることと、 その利点を活かす点予測による言語処理を提案する。さらに、『現代日本語書き言葉均衡コ ーパス』を用いた実験の結果を提示し提案する枠組みの評価を行う。最後に、コーパスへの 部分的アノテーションと点予測による言語処理の今後を展望する。
石田将吾(名古屋大学)
本発表では,新たに編纂したエッセイコーパスを用いた著者推定実験の結果について報告する. このエッセイコーパスは,30 人の職業作家の 90 冊のエッセイ集から抽出したテキストから構 成されており,1 人当たり約 3 万字(約 1,000 字 ×10ヶ所 ×3 冊)を収録している.文字 bigram 言語モデルを利用した著者推定法の精度は,5,000 字の推定用テキストを用いた場合,97.8%で あった.また,推定用テキストとして, 1ヶ所から抽出した 1,000 字を用いた場合は 74.4%, 5ヶ所から抽出した 200 字を併合した 1,000 字を使った場合は 84.9%と,推定精度が 10 ポイント 以上異なることが明らかになった. (情報処理学会自然言語処理研究会(9月17日)発表予定と同内容)
参加者: 32名
狩野芳伸(東京大学)
自然言語処理技術の発展とともに,数多くの言語資源(コーパス・ツール)が一般に利用可能な 形で公開されている.しかし,多くの場合互換性が考慮されておらず,言語資源を組み合わせる ためにはデータ形式の変換や実行設定記述などユーザにとって本質的でない作業が必要であった. 本発表ではまず,このような状況を改善するオープンフレームワークであるUIMAと,NLPコミュ ニティにおけるUIMA関連のプロジェクトや応用を紹介する.そのうえで,UIMAのみでは不足し ていた,より高度な互換性やユーザビリティを提供する,UIMA互換の統合自然言語処理システム であるU-Compare についてデモを交えつつ解説する.U-Compareは様々な互換言語資源群を提供 するとともに,それらの組み合わせ・実行・比較評価・統計と視覚化を統合したプラットフォーム を提供しており,プログラミングなしにこれらの機能が利用可能であると同時に,必要な部分のみ を用いたりカスタマイズしたりすることでユーザ自身のシステムに埋め込むこともできる.
小澤俊介(名古屋大学)
Web 上には,病気への対処法や料理のレシピなど,様々なノウハウが蓄積されているものの,従 来のWeb 検索ではノウハウのみを検索することは難しい.これに対し,ノウハウを整理し,提供 できれば,様々な事象への対処・対策が容易になる.本発表では,Web からノウハウを獲得する 手法について述べる.本手法では,モノを含むパッセージを獲得し,ノウハウ候補を抽出する. モノと用途表現に着目することにより,ノウハウを含むパッセージを精度よく獲得できる.
参加者:23名
佐々木裕(豊田工業大学)
駒谷和範(名古屋大学)
参加者:33名