【海外サイエンス・実況中継】 コンピュータは言語を理解できるのか? ~ コンピュータサイエンス・自然言語処理分野

Post date: Jan 09, 2012 5:28:27 PM

_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/

_/

_/ 『海外の大学院留学生たちが送る!サイエンス・実況中継』

_/ October 2007 Vol 21 No 1

_/ カガクシャ・ネットワーク → http://kagakusha.net/

_/

_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/

研究の最前線をお送りする第21回目です。今週はカーネギーメロン大学の

嶋さんが、コンピュータサイエンスの一分野である「自然言語処理」につい

て解説をしてくれます。コンピュータの発展には、物理学や工学の貢献が不

可欠だったのは周知の事実ですが、これからはむしろ、コンピュータが他の

分野にもたらす貢献が大きなものになっていくでしょう。逆に、他の分野の

知識がコンピュータサイエンスのさらなる発展につながっていくという、

フィードバックが見られるというのも、このエッセイから伺われて興味深い

です。

(杉井)

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

今日のエキスパートな質問(答えは下にあります)

─────────────────────────────────────

1. 最近、自然言語処理における方法として活発に研究されている統計的

手法では、どのように「スパムメール」を見いだすのでしょうか?

2. いま、「言語技術学科」にもっとも関連の深い分野は?

3. 嶋さんの開発している「質問応答」とは、どのようなシステムのこと

をいうのでしょうか。例を挙げてください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

コンピュータは言語を理解できるのか? ~ コンピュータサイエンス・

自然言語処理分野

嶋 英樹

─────────────────────────────────────

こんにちは、カーネギーメロン大学の嶋です。今回は私の専攻分野である

コンピュータサイエンスの一部、自然言語処理関連のお話をさせていただき

たいと思います。

【自然言語処理とは?】

かみくだいて言うと、コンピュータで自然言語処理をする動機は次のように

なります。

Q:ヒトが他の動物より賢いのはどうしてでしょうか?

A:「ことばを使える」のが理由の一つかもしれません。

Q:では、コンピュータを賢くするには、どうしたらいいでしょうか?

A:コンピュータに「ことば」を理解させることを目指せば良さそうです。

コンピュータといえば、ミクロ的にみれば0と1の演算を高速にする機械です

が、「計算をしない」ように見える最初の応用は、機械翻訳(自動翻訳)と呼

ばれるもので、1950年代にはすでに誕生していました。それ以来、音声認識、

自動要約、情報検索、質問応答など、さまざまな自然言語とその周りの研究

が行われています。自然言語処理は人工知能の一分野として扱われ、その実現

はSFなどで描かれるように、まさに人類の夢でした。

ところが半世紀以上研究されても機械翻訳が完璧ではないのはどうしてでしょ

うか?実現不可能なのでしょうか?

錬金術のように不可能に近い、高い目標を目指すことによって、いままで大

きな収穫が得られてきたのは事実です。たくさんの問題が見つかり、そして

解決されてきました。その間、言語学からはチョムスキーの生成文法、統計・

機械学習(データを自動的に分類するシステム)からはニューラルネットワー

ク、ベイジアンネットワークなどのパラダイムシフトの影響を受け、自然言語

処理の手法も大きく変わってきています。

【統計的自然言語処理】

1960年頃から続いた合理主義から、1985年ぐらいからの経験主義へのシフト

により、ツリーバンクなどの注釈付きコーパス(言語の巨大なテキストデー

タ)が作られ、ベイジアン統計理論の進歩やコンピュータの高速化なども手

伝って、最近の自然言語処理は、統計的手法を中心に一気に進化した感があ

ります。

例えば、スパムメールをはじくという問題を考えたとき、従来の知識ベース

のやり方では「バイアグラ」という単語が含まれていたらはじく、ブラック

リストに載ったメールアドレスからのメールがきていたらはじく、としてい

たわけです。

これに対して、統計的手法では普通のメールとスパムメールを集め、それ

ぞれに含まれている単語の数を数え、スパムメールが与えられたとき「バイ

アグラ」を含む可能性は30%などという推定から、メールが与えられたとき

それがスパムである確率を計算できます。

統計的手法のおかげで、理論的にしっかりした計算モデルを言語に適用でき、

手法を他の研究に転用しやすくなるなど、最先端の研究が早く進むようにな

りました。その一方、自然言語処理は計算言語学と呼ばれるべきなのか、私

たちの分野は理学なのか工学なのか、言語学な貢献ももっとするべきだ、と

いった論争は尽きません。

【生物学・物理学などいろいろな分野との関連】

現在所属している言語技術学科(=Language Technologies Institute)は、

ほとんどの教授・学生がコンピュータサイエンス畑出身です。

言語技術学科には、言語学専攻・コンピュータサイエンス副専攻のような

バックグラウンドをもった人もいます。しかし、言語学自体を扱う授業は

多くありません。もちろん、言語学の知識は、自然言語処理の基礎(単語の

形態素解析、係り受け解析、固有名詞抽出、照応解析など)の問題定義や、

機械学習における特徴量の設計には欠かせません。

いま最も関連が深い分野は、「機械学習」だと思います。機械学習の応用は

画像などもありますが、自然言語処理にはある程度の速さで計算可能で、

まだ解かれていない問題がたくさんあるため、親和性が高いように思います。

応用統計学と統計的機械学習は密接ですが、機械学習ではコンピュータで

現実的な時間で計算可能かということにも着目します。データマイニング

にも、ウェブのリンク解析などで関連しています。

いままでは「人工知能」の一分野として見られがちだった自然言語処理です

が、「人工知能」という言葉はあいまいで、対象研究分野が広くなりすぎる

ため、最近はあえて使われなくなってきています。

言語モデルの研究には、情報理論も密接に関わってきます。グッド・チュー

リング法という単語の分布推定方法が、第二次世界大戦のときにナチス・

ドイツの暗号を破るのに活用されたのは、ご存知かもしれません。

生物学とは、融合分野である計算生物学というところで関わっています。

言語技術学科にも、いくつかの計算生物学のプロジェクトがあります。

世の中にはコンピュータサイエンスと生物学の両方の博士号を持つ教授もお

り、例えばCMUのEric Xing教授や慶應の冨田勝教授などがいらっしゃいます。

ゲノムが4種類のアルファベットATGC(塩基)で書かれた言語である、

と考えれば自然の流れかもしれません。例えば、パソコンでの仮名漢字変換

とゲノム解析は両方とも同じ手法でアプローチすることができます。

統計物理学の影響は、行列計算の多いウェブのリンク解析などに現れていま

す。他にも、単語を電子と見立て意味をスピンに置き換えて計算したり、

情報量の平均をエントロピーで表したり、物理学のサンプリング手法を使っ

たりしています。 検索エンジンでの検索キーワードの自動拡張が、ブラウン

運動でおなじみのランダムウォークで実現できるのは面白いと思いませんか?

【研究紹介】

私はCMUにきてからというもの、「言語間横断質問応答プロジェクト」にこれ

まで3年以上従事しています。質問応答というのは、「ビル・クリントンの奥

さんは誰ですか?」というような質問に対して、「ヒラリー・クリントン」と

いう答えを返すような、検索エンジンの進化系ともいえる研究です。

検索では文書(へのリンク)がアウトプットですが、質問応答では関連文書

から情報を抽出するという技術が必要になります。

さらに、言語間横断なので、英語で質問をして、各国の言語で書かれた新聞

などから答えを調べ、まとめ上げ、英語でアウトプットするというような形

になります。

情報検索、情報抽出、機械翻訳を中心にいろいろな技術のいる複雑なプロ

ジェクトですが、「意味理解」を実現するシステムを目指し、日々がんばって

います。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

自己紹介

─────────────────────────────────────

嶋 英樹

2004年早稲田大学理工学部情報学科卒業。その後ペンシルバニア州ピッツ

バーグにあるカーネギーメロン大学コンピュータサイエンス学部言語技術学科

に進学し、2006年に修士課程を修了。その後博士課程に進学し、現在に至る。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

今日のポイント(エキスパートな質問の答えです)

─────────────────────────────────────

1. 最新の統計的手法では、「普通のメール群」と比較して「スパムメール

群」により多く見られる単語を見いだし、ある特定のメールが「スパム」で

ある確率を計算する。

2. いま、言語技術学科にもっとも関連の深い分野は、「機械学習」(データ

を自動的に分類するシステム)だと考えられる。

3. 「言語間横断質問応答」とは、例えば、「ビル・クリントンの奥さんは

誰ですか?」というような質問に対して、「ヒラリー・クリントン」という

答えを返すという、さらに進化した検索エンジンのシステムのことである。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

編集後記

─────────────────────────────────────

今週やっとNSFのプロポーザル書きのお手伝いが終わったと思ったら、来週

の出張に向けてのプレゼン資料・ポスター作り、デモソフトの準備に追われ

ています。出張で参加するのは、「今年はこれだけがんばったから来年も研究

を続けさせてください」とプロジェクトの出資者に成果を発表する会です。

私の役目は教授のサポートとして2時間半ブースでデモをすることなのです

が、お客さんにはシステムを将来使うかもしれないユーザ、つまりCIAなど

政府のアナリスト達も含まれていて、緊張します。

(嶋)

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

カガクシャ・ネットワーク http://kagakusha.net/

(上記サイトで無料ユーザー登録後、バックナンバー閲覧可)

発行者: 杉井重紀

メールマガジンの登録と解除: http://www.mag2.com/m/0000220966.html

ご質問・要望・感想等はこちら: http://kagakusha.net/Mailform/mail.html

連絡先: staff@kagakusha.net (@を@に変換してください)

友人・お知り合いへの転送はご自由にしてください。

ただし、無断転載は禁じます。転載ご希望の際は必ずご連絡ください。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━