研究内容

篠田研究室では、パターン認識手法とその実世界応用の研究を行っています。 具体的には、音声や映像などのマルチメディアデータを対象として、 その認識・理解を行うアルゴリズムの研究やアプリケーションの開発に取組んでいます。 ニューラルネットワークを用いてデータの特徴を学習するディープラーニング、 グラフ構造を持った時系列データを扱うグラフ信号処理などの手法を頑健な音声認識や大規模な映像検索などに応用しています。 詳しくは以下の説明をご覧ください。

ディープラーニング

ディープラーニングは、複数の層を有するニューラルネットワークを用いて、データの特徴を学習する枠組みです。ディープラーニングは、音や画像データの認識・理解に有用であることから、近年注目を集めています。我々は、音声認識や画像認識のためのディープラーニングとして、Recurrent Neural NetworkやConvolutional Neural Networkなどの研究を行っています。

グラフ信号処理

グラフ信号処理は、グラフ構造を持った時系列データを解析する枠組みで、従来の信号処理技術をグラフで表現された音声・画像データの解析に応用することができます。我々は、グラフ信号処理をパターン認識に応用することで、 人間の動作解析や認識・認証システムの開発を行っています。

頑健な音声認識

現在の音声認識システムを車の中などの雑音環境下でも利用できるように、 雑音に頑健な特徴量やモデルの開発を行っています。 また、短い発話データから話者を認証する音声認証や、能動学習を用いた話者適応化、複数の話者の音声を同時に認識する重畳音声認識など、様々な面から音声認識に関する研究を行っています。

話者照合

声をもとに人物の照合を行う話者照合技術は、監視・防犯システムなどに利用されています。 我々は、確率モデルを用いてより正確に効率よく話者の照合を行う手法や、 照合に適した発話内容選択手法の研究を行っています。

誤り訂正

近年、スマートフォンの普及により、音声認識のアプリケーションが身近なものとなりました。 しかし、雑音などの影響で認識誤りが発生することが多くあります。 我々は、シンプルなインターフェースと音声認識技術を組合わせることで、 誤りを効率的に訂正できるシステムを開発しています。 具体的には、誤り箇所の指定方法の工夫を行い、 複数の認識結果を効率よく提示する手法を研究しています。

インターフェース

実世界で音声認識を利用する際には、自然で使いやすいインターフェースが必要となってきます。 そこで、音声認識の間違いを簡単な操作で訂正できるシステムの開発や対話行為の解析を行っています。 さらに、複数の言語を理解する多言語音声認識の研究も行っています。

人物認証

人物認証や人間の動作を理解するシステムを作るために、映像解析に関する研究を行っています。具体的には、3次元画像が取得できるカメラを用いて、歩き方をもとにした人物認証、ジェスチャーと手話の認識、人物追跡などのテーマに取り組んでいます。

映像検索

動画像検索の技術は近年急速に進歩していますが、コンテンツの内容を詳細に検索するためには、 動画像に意味的タグ付けを行う必要があります。 そこで、確率的モデルを用いて自動的に動画像の意味を認識するシステムの開発を行っています。