Seminar

各種セミナーの情報

18/12/21(金)

会場:名古屋工業大学3号館2階会議室

講演者:佐々木博昭氏(奈良先端科学技術大学院大学)

演題:Mode-hunting with direct log-density gradient estimation and its application in clustering

アブストラクト

The modes (i.e., local maxima) of the probability density function

behind the observed data are useful geometric features in statistical

data analysis. For instance, clustering has been performed based on

the modes, and modal regression enables us to simultaneously capture

multiple functional relationships between input and output data. A

technical challenge to capture the modes is to estimate the

derivatives of the probability density function. A native approach to

estimate the density derivatives is to first estimate the data

density, and then compute the derivatives of the estimated density.

However, this approach can be unreliable because a good density

estimator does not necessarily mean a good density-derivative

estimator. To cope with this problem, in this talk, we employ and

develop a "one-step" estimator, which approximates the derivatives of

the multidimensional log-density without going through density

estimation. The proposed estimator is theoretically analysed and a

rate of convergence is established. Then, with the log-density

derivative estimator, we propose a novel clustering method, and

theoretically analyse the properties of the proposed clustering

method. Finally, we experimentally demonstrate that the proposed

clustering method significantly outperforms existing mode-based

clustering methods especially for high-dimensional data. This talk is

partially based on the following paper:

Hiroaki Sasaki, Takafumi Kanamori, Aapo Hyvärinen, Gang Niu and

Masashi Sugiyama, "Mode-Seeking Clustering and Density Ridge

Estimation via Direct Estimation of Density-Derivative-Ratios",

Journal of Machine Learning Research, no.180, vol.18, pp.1-47, 2018.

-------------------------

18/11/28(水)

会場:名古屋工業大学2号館611Bセミナー室

講演者:横井祥氏(東北大学)

演題:単語を埋め込む、句を埋め込む、文を埋め込む、文書を埋め込む(前半)

カーネル法に基づく共起尺度(後半)

アブストラクト

前半:

自然言語処理分野や近隣分野では、2013年のword2vecのブレイク以後、単語(離散シンボル)や句・文・文書(離散シンボルの系列)を連続空間(実数値ベクトル)に埋め込む研究が盛んに取り組まれている。こうした埋め込みの研究の最近の進展を概観する。とくに (1) 離散シンボルの何を埋め込もうとしているのか (2) 埋め込むための主要なアプローチにはどのようなものがあるか (3) 既存のアプローチの限界について触れる。

後半:

文埋め込み(文の類似度計算)の最近の進展を活用した取り組みをひとつ紹介する。ふたつの文の間の関連の強さは一般に自己相互情報量(PMI)で推定されるが、これには長時間の学習を要する。本研究では、PMIが「相互情報量への文対の貢献度」と捉えられることに対比させ、提案尺度であるPHSICを「HSIC(カーネル法に基づく依存性尺度)への文対の貢献度」で定義する。実験結果として、PHSICを対話の応答文選択に適用するとPMIよりも約1000倍高速に学習できること、また機械翻訳の訓練データのフィルタリングに適用すると翻訳機の性能を保ちながらデータ量を約3分の1に圧縮できることを示す。