2011

第12回 2011年12月21日（水）17:15-18:45 @ 名古屋大学工学部 IB電子情報館 IB012教室

学生による研究紹介（１１名）

- 佐々木研究室
  - GPGPUを用いたSVMによる分類の高速化（長谷川）
  - 電子カルテからの文脈情報抽出の性能向上法（高橋）
  - 医療カルテの関係抽出（大場）
  - 交通規則に関する知識ベースの構築（吉満）
- 外山研究室
  - 類似条例の比較における条構成の自動分析（今田）
  - ブートストラップ法に基づく対訳コーパスからの対訳語彙の意味カテゴリの自動抽出（今田）
- 佐藤・駒谷研究室
  - 日本語の回文・アナグラムの自動生成（鈴木）
  - 英語ウェキペディアを日本語で引く（鈴木）
  - カタカナ表記ゆれに対応した日本語辞書検索（鈴木）
  - ヒューマノイドロボットへの話しかけやすさのモデル化（杉山）
  - 日本語クロスワードを解くシステムの実現（鈴木）

参加者31名

第11回 2011年11月30日（水）17:15-18:45 @ 名古屋大学工学部 IB電子情報館 IB015教室

1. 「対話システムのための参照表現の確率モデル」

船越孝太郎（HRI）

参照表現とは話し手が関心を持つ特定の事物を聞き手に対して指し示す言語表現である．参照表現には記述（「机の上のコップ」），照応（先行文脈を伴っての「それ」），直示（外界への指差しを伴っての「それ」）が含まれるが，これらは従来別々に研究されることが多かった．ある程度複雑な対話を扱う対話システムにおいては記述・照応・直示の全てを扱うことが必要になるが，実際の対話ではこれら3種の参照表現を明確に区別することは難しい．そこで我々は，記述・照応・直示を区別すること無く統一的に扱うことのできる確率的な枠組みを提案する．その枠組みでは，ベイジアンネットワークの形で，個々の参照表現の確率モデルを動的に（つまり対話進行中に）構築する．確率モデルは，特定の対象を参照していると思われる確からしさを確率の形で与えるので，それを元に参照解決（参照表現の理解）を実現できる．また，その確からしさを指標として，複数の候補のなかから最良と予想される参照表現を選択することで，参照表現の生成も実現できる．本発表では，様々な参照表現に対する提案枠組みの潜在的な可能性について定性的に議論すると同時に，REX-Jコーパスを用いて行った参照解決の予備的な定量評価の結果を示す．

2. 読みやすい字幕生成のための講演テキストへの改行挿入

大野誠寛（名古屋大学）

字幕生成とは，講演や解説などの音声をテキストで提示するものであり，聴覚障害者や高齢者，外国人らによる講演音声の理解を支援するための技術である．講演では一文が長くなる傾向にあり，多くの文がスクリーン上で複数行にまたがって表示されることになるため，テキストが読みやすくなる位置に改行が挿入されている必要がある．本発表では，読みやすい字幕を生成するための要素技術として，日本語講演文への改行挿入手法を提案する．本手法では，係り受け，節境界やポーズ，行長などの情報に基づき，統計的手法によって改行位置を決定する．日本語講演データを使用した改行挿入実験により，本手法の有効性を確認した．

参加者：27名

第10回 2011年10月26日（水）17:15-18:45 @ 名古屋大学工学部 IB電子情報館 IB012教室

１．Language Modeling as Unsupervised Bayesian Learning

持橋大地（統計数理研究所）

統計的自然言語処理において、言語モデルは非常に基礎的なモデルであり、情報理論や統計的機械学習とも深い関わりを持っている。言語モデルは通常考えられるようにnグラムモデルだけではなく、実は形態素解析、構文解析、感情情報処理など、ほとんど全ての言語現象を扱える、広い方法論であるといってよい。こうした言語モデルの中心的な課題は、高次元離散データのスパース性である。近年の巨大なデータを用いても、構文木のような組み合わせ的構造の全てが出現するわけではなく、そこに隠れた規則性を捉えることが統計的自然言語処理の挑戦となっている。本講演では、以上のような最近の言語モデル研究を概観し、その上で、スパース性を解消する方法として階層ベイズ法を用いたnグラムモデルのベイズ学習、およびその∞-gramへの拡張について解説する。さらにその応用として、未知の言語の場合も含め、観測された文字列のみから「単語」を学習する、教師なし形態素解析とその学習法について紹介する。

2. GPGPUによるSVMの高速化と文書分類における評価

佐々木裕 (豊田工大)

文書分類を現実問題に適用する場合，しばしば大量のカテゴリへの分類を高速に実行することを求められる．たとえば，米国立衛生研究所(NIH) の国立医学図書館(NLM) が定める生物・医学用語のシソーラスであるMeSH（Medical Subject Headings)は，110,000 以上のカテゴリからなり，生物・医学系の1800 万件以上の論文や文書に対する世界標準の分類基準として使われている．このように，大量の文書を大量のカテゴリに分類する問題を実用時間内に解くこと考えた場合，その鍵として超並列計算の利用が期待される．近年，汎用グラフィックプロセッサ(GPGPU: General-Purpose Graphics Processing Unit) がスーパーコンピュータにより採用されるなど，GPGPUによる超並列処理に注目が集まっている．そこで，本発表では，文書分類タスクを念頭におきながら，文書分類データの特性に合った形で，SVM分類アルゴリズムをGPGPUにより並列処理する研究の現状を紹介し，最新の評価結果について報告する．

参加者：28名

第9回 2011年8月3日（水）17:15-18:45 @ 名古屋大学工学部7号館702教室

1. 大規模教師なしデータからの縮約素性表現学習

鈴木潤 (NTT CS研)

品詞タグ付け，固有表現抽出，係り受け解析等の自然言語を解析する問題では，教師あり学習を用いることで非常に高い解析精度が得られることが知られている．より高い解析精度を得るために，より多様かつ大量の素性の利用を考えると，メモリ使用量や計算量等が増加する問題に直面すため，実用上はそのトレードオフを考えた素性設計をすることになる．本発表ではこの点に着目し，大規模教師なしデータをうまく活用し，教師あり学習に用いる素性を効果的に縮約し，高次元かつ疎な素性空間から、より低次元かつ密な素性空間を構築する方法を紹介する．また本手法は半教師あり学習法の枠組で定式化されており，一般的な半教師あり学習のように，教師あり学習の精度を大幅に向上させることも同時に可能である．実際に，固有表現抽出，係り受け解析等のいくつかのベンチマークデータにおいて現在の最も高い解析精度と同等の精度を，従来のおよそ数百から数万分の１のモデルパラメタ数で得ることができることを示す．

2. テキストの難易度に対する人間の判断と機械の判断

佐藤理史（名古屋大学）

テキストに対して人間が素朴に感じる難易度を測定する調査研究の現状について報告する。本調査では、4つのテキストをやさしい順に並べてもらう課題を被験者に実行してもらい、その結果を集計することで、人間が感じる難易度の一致度や個人差、および、機械的に測定した難易度との比較を行うことをもくろんでいる。本発表では、課題の設計と、20課題に対する11人の被験者実験の結果、および、それに基づく暫定的な予想について報告する。なお、本研究は柏野和佳子（国立国語研究所）との共同研究である。

参加者：約25名

第8回 2011年6月29日（水）17:15-18:45 @ 名古屋大学IB電子情報館IB-014教室

1. 住民参画支援のための意見構造化とLinked Open Dataの構築

白松俊（名古屋工業大学）

本発表では，地域の住民参画（Public Involvment）の支援システム開発に向け，地域に関する意見や背景情報を構造化し，Linked Open Data (LOD) として公開する試みを紹介する．具体的には，背景としてWeb上のニュース記事からイベント抽出を行い，それを媒介としてマイクロブログや自治体の逐語議事録中の発言を関連付け，構造化する．さらに，意見やニュース記事の関係をLODとして公開し，同一イベントに関する住民の問題意識の分析・評価（コンサーン・アセスメント）に活用するための課題について述べる．

2. 複数人会話に参加する会話ロボットによるコミュニケーション活性化

藤江真也（早稲田大学）

音声対話システムは，様々なプラットフォーム上での実現が期待されているが，特に人型ロボットにおける人とのコミュニケーション手段として注目されている．計算機上のソフトウェア・エージェント等と違い，実体のあるロボットに音声対話機能を実現することで，人と空間を共有しながらコミュニケーションを取ることができる存在感のあるエージェントを構築することができる．このような存在感を活かした会話ロボット応用として，人同士のコミュニケーションに参加させ活性化させる試みについて述べる．

参加者：３２名

第7回 2011年5月25日（水）17:15-18:45 @ 名古屋大学IB電子情報館IB-014教室

Watson - クイズ番組に挑戦した質問応答システム

金山博(日本IBM)

IBM の質問応答システムWatsonが、クイズ番組で人間のチャンピオンと対戦し、勝利を収めた。その模様を紹介するとともに、対戦のために解決する必要があった技術的課題、用いたアーキテクチャ・アルゴリズムと情報源、基礎研究部門の挑戦の意義、今後の方向性などについて述べる。

参加者40名

Page updated

Google Sites

Report abuse