[多変量解析などの地味な分野について思ったこと]
この分野に関しては「単純な集計結果の可視化だけでは得られなかった、実用に耐えるだけのインサイトを機械学習によって得ることが出来た」ということはそう簡単には起こらないと思われる。作業スピードや結果の共有の手軽さを考えると、エクセルやBIツールでささっと単純集計と可視化をして済ませてしまうケースが大半であろう。つまり身も蓋もないことを言うと、この分野の手法をいくら使いこなしても「凄い人」という評価は民間企業ではなかなか得られないと自分は思う。
しかし古典的で地味な機械学習が全くビジネスの現場で使えないかと言えばそうでもなく、使い方と場面によっては、単純な集計結果の可視化では得られない結果を実用に耐えるスピード感とインパクトを持って与えることが出来ることもある、と思う。
また、判断の自動化という点では使い方によっては十分な成果が期待できる。可視化したデータを基に人間が判断する場合、それが週次程度の頻度ならいいが、日次以上の頻度となると現実的でなくなることが多いものと思われる。
さらに、より複雑な機械学習の理論を理解したり、コーディングで実装する技術取得のための土台として必要でもある、と自分は考える。なので、これはこれでしっかり学ぶ価値のある分野である。
scikit-learnは基本的な機械学習を実際にやってみるうえで最適なライブラリであると思われるので、経験を積んで使い方を熟知したい。
[データサイエンスとデータエンジニアリングについて思ったこと]
データエンジニアリングはそれ単体でも有用で、ビジネスの場面でも大いに使われるが、データサイエンスはデータエンジニアリングがないと活用できない。
[古典的な統計的言語モデル]
LSAはBoWに特異値分解を適用し、低次元ベクトルを手にする分析モデルである。
LDAは階層ベイズモデルを用い、文章や単語の意味を教師なしで分類する分析モデルである。
[主成分分析]
主成分分析は、パターン認識、画像解析、信号処理などの分野では、カルーネン・レーベ展開とよばれ、次元圧縮法の一つとして用いられている。
[画像認識]
大規模なベクトルを直接扱うのではなく、畳み込みやプーリングなどの操作を通じて特徴を抽出し、その特徴に基づいて分類や判定を行うのが一般的である。