佐々木研究室
GPGPUを用いたSVMによる分類の高速化(長谷川)
電子カルテからの文脈情報抽出の性能向上法(高橋)
医療カルテの関係抽出(大場)
交通規則に関する知識ベースの構築(吉満)
外山研究室
類似条例の比較における条構成の自動分析(今田)
ブートストラップ法に基づく対訳コーパスからの対訳語彙の意味カテゴリの自動抽出(今田)
佐藤・駒谷研究室
日本語の回文・アナグラムの自動生成(鈴木)
英語ウェキペディアを日本語で引く(鈴木)
カタカナ表記ゆれに対応した日本語辞書検索(鈴木)
ヒューマノイドロボットへの話しかけやすさのモデル化(杉山)
日本語クロスワードを解くシステムの実現(鈴木)
参加者31名
船越孝太郎(HRI)
参照表現とは話し手が関心を持つ特定の事物を聞き手に対して指し示す言語表現 である.参照表現には記述(「机の上のコップ」),照応(先行文脈を伴っての 「それ」),直示(外界への指差しを伴っての「それ」)が含まれるが,これら は従来別々に研究されることが多かった. ある程度複雑な対話を扱う対話システムにおいては記述・照応・直示の全てを扱 うことが必要になるが,実際の対話ではこれら3種の参照表現を明確に区別する ことは難しい. そこで我々は,記述・照応・直示を区別すること無く統一的に扱うことのできる 確率的な枠組みを提案する. その枠組みでは,ベイジアンネットワークの形で,個々の参照表現の確率モデル を動的に(つまり対話進行中に)構築する.確率モデルは,特定の対象を参照し ていると思われる確からしさを確率の形で与えるので,それを元に参照解決(参 照表現の理解)を実現できる.また,その確からしさを指標として,複数の候補 のなかから最良と予想される参照表現を選択することで,参照表現の生成も実現 できる. 本発表では,様々な参照表現に対する提案枠組みの潜在的な可能性について定性 的に議論すると同時に,REX-Jコーパスを用いて行った参照解決の予備的な定量 評価の結果を示す.
大野誠寛(名古屋大学)
字幕生成とは,講演や解説などの音声をテキストで提示するもので あり,聴覚障害者や高齢者,外国人らによる講演音声の理解を支援 するための技術である.講演では一文が長くなる傾向にあり,多く の文がスクリーン上で複数行にまたがって表示されることになるた め,テキストが読みやすくなる位置に改行が挿入されている必要が ある.本発表では,読みやすい字幕を生成するための要素技術とし て,日本語講演文への改行挿入手法を提案する.本手法では,係り 受け,節境界やポーズ,行長などの情報に基づき,統計的手法によ って改行位置を決定する.日本語講演データを使用した改行挿入実 験により,本手法の有効性を確認した.
参加者:27名
持橋大地(統計数理研究所)
統計的自然言語処理において、言語モデルは非常に基礎的なモデルで あり、情報理論や統計的機械学習とも深い関わりを持っている。言語 モデルは通常考えられるようにnグラムモデルだけではなく、実は形態素 解析、構文解析、感情情報処理など、ほとんど全ての言語現象を扱える、 広い方法論であるといってよい。 こうした言語モデルの中心的な課題は、高次元離散データのスパース性 である。近年の巨大なデータを用いても、構文木のような組み合わせ的 構造の全てが出現するわけではなく、そこに隠れた規則性を捉えることが 統計的自然言語処理の挑戦となっている。 本講演では、以上のような最近の言語モデル研究を概観し、その上で、 スパース性を解消する方法として階層ベイズ法を用いたnグラムモデルの ベイズ学習、およびその∞-gramへの拡張について解説する。 さらにその応用として、未知の言語の場合も含め、観測された文字列のみ から「単語」を学習する、教師なし形態素解析とその学習法について紹介 する。
佐々木 裕 (豊田工大)
文書分類を現実問題に適用する場合,しばしば大量のカテゴリへの分類を高速に実行 することを求められる.たとえば,米国立衛生研究所(NIH) の国立医学図書館(NLM) が 定める生物・医学用語のシソーラスであるMeSH(Medical Subject Headings)は,110,000 以上のカテゴリからなり,生物・医学系の1800 万件以上の論文や文書に対する世界標準 の分類基準として使われている.このように,大量の文書を大量のカテゴリに分類する 問題を実用時間内に解くこと考えた場合,その鍵として超並列計算の利用が期待される. 近年,汎用グラフィックプロセッサ(GPGPU: General-Purpose Graphics Processing Unit) が スーパーコンピュータにより採用されるなど,GPGPUによる超並列処理に注目が集まっている. そこで,本発表では,文書分類タスクを念頭におきながら,文書分類データの特性に合った 形で,SVM分類アルゴリズムをGPGPUにより並列処理する研究の現状を紹介し,最新の 評価結果について報告する.
参加者:28名
鈴木 潤 (NTT CS研)
品詞タグ付け,固有表現抽出,係り受け解析等の自然言語を解析する問題では, 教師あり学習を用いることで非常に高い解析精度が得られることが知られてい る.より高い解析精度を得るために,より多様かつ大量の素性の利用を考える と,メモリ使用量や計算量等が増加する問題に直面すため,実用上はそのトレー ドオフを考えた素性設計をすることになる. 本発表ではこの点に着目し,大規模教師なしデータをうまく活用し,教師あ り学習に用いる素性を効果的に縮約し,高次元かつ疎な素性空間から、より低 次元かつ密な素性空間を構築する方法を紹介する. また本手法は半教師あり学習法の枠組で定式化されており,一般的な半教師 あり学習のように,教師あり学習の精度を大幅に向上させることも同時に可能 である. 実際に,固有表現抽出,係り受け解析等のいくつかのベンチマークデータにおい て現在の最も高い解析精度と同等の精度を,従来のおよそ数百から数万分の1の モデルパラメタ数で得ることができることを示す.
佐藤理史(名古屋大学)
テキストに対して人間が素朴に感じる難易度を測定する調査研究の現状について 報告する。本調査では、4つのテキストをやさしい順に並べてもらう課題を被験 者に実行してもらい、その結果を集計することで、人間が感じる難易度の一致度 や個人差、および、機械的に測定した難易度との比較を行うことをもくろんでい る。本発表では、課題の設計と、20課題に対する11人の被験者実験の結果、お よび、それに基づく暫定的な予想について報告する。なお、本研究は柏野和佳子 (国立国語研究所)との共同研究である。
参加者:約25名
白松俊(名古屋工業大学)
本発表では,地域の住民参画(Public Involvment)の支援システム開発に向 け,地域に関する意見や背景情報を構造化し,Linked Open Data (LOD) として 公開する試みを紹介する.具体的には,背景としてWeb上のニュース記事からイ ベント抽出を行い,それを媒介としてマイクロブログや自治体の逐語議事録中の 発言を関連付け,構造化する.さらに,意見やニュース記事の関係をLODとして 公開し,同一イベントに関する住民の問題意識の分析・評価(コンサーン・アセ スメント)に活用するための課題について述べる.
音声対話システムは,様々なプラットフォーム上での実現が期待されているが, 特に人型ロボットにおける人とのコミュニケーション手段として注目されてい る.計算機上のソフトウェア・エージェント等と違い,実体のあるロボットに 音声対話機能を実現することで,人と空間を共有しながらコミュニケーション を取ることができる存在感のあるエージェントを構築することができる.この ような存在感を活かした会話ロボット応用として,人同士のコミュニケーショ ンに参加させ活性化させる試みについて述べる.
参加者:32名
金山博(日本IBM)
IBM の質問応答システムWatsonが、クイズ番組で人間のチャンピオンと対戦し、 勝利を収めた。その模様を紹介するとともに、対戦のために解決する必要があっ た技術的課題、用いたアーキテクチャ・アルゴリズムと情報源、基礎研究部門の 挑戦の意義、今後の方向性などについて述べる。
参加者40名