Q. 複数の形質からなる表現型データなどに関して、主成分分析で情報を要約する際、データに連続変数と離散変数がどちらも含まれる場合、不適切な扱い方はあるか、また適切な解析手法は?(東京大学農学生命科学研究科・八田大成さん)
A. おっしゃる通り、連続変数と離散変数を統合して解析したい場合は多いように思います。特に育種に関わるデータである場合、育種家による達観評価であったり、色や形などが離散変数として現れる場合も多いでしょう。このような離散変数を扱う際の注意点としては、まず、離散変数に順序関係があるか、ということが言えるかと思います。離散変数が順序付きであり、ある程度データに偏りがない場合には、連続値とみなして一緒に解析して問題がない場合も多いでしょう。一方で、離散変数が順序付きでない場合(色や形など)は注意が必要で、これを数値として連続変数と一緒に解析を行うと問題が多いです。特に後者のような場合の解析手法としては、離散変数に対する主成分分析のような解析手法として、MCA (Multiple Correspondence Analysis) とよばれる手法が存在します。また、連続変数・離散変数を同時に扱う場合には、FAMD (Factor Analysis of Mixed Data) とよばれる解析手法も存在します。これらの手法の詳細はここでは割愛しますが、Rのパッケージや関数としても実装されているので、実際に試してみると良いかもしれません。ただ、果たしてその離散的な形質をコストをかけて取得する必要があるのか、本当に後の解析で使うのか、ということをしっかりと事前に吟味する、ということが実は一番重要なのかもしれません。(回答者:九州大学・野下さん@ワークショップ、理研AIP・濱崎)
Q. 明らかなオーバーフィッティングが見られた際に、このようなアプローチでなら改善できる可能性がある、ということがあれば知りたいです。
A. 過学習(オーバーフィッティング)とは、モデルが訓練データに過剰に適合して、テストデータに対して正確に予測できない状態で、特にデータに対してモデルが複雑すぎる時などに起こりやすい現象です。過学習については、まず自分のモデルが過学習していること自体をしっかりと気づくことが重要かと思います。過学習が起こっているかを確認するには、訓練集団での当てはまりをみるだけでなく、適切な交差検証を行ったり、適切なテストデータを用意したりすることで、精度が極端に良かったりしないかを確認する必要があります。特に、交差検証を行っている場合でも、集団を分割した際に訓練集団とテスト集団に同じ品種がそれぞれ入ったりしてしまっていると、いわゆるリーク(カンニング)している状態になり、精度の過大評価につながったりするので、注意が必要です。モデルが過学習を起こしてしまった場合の対処法としては、可能なら訓練集合のデータ点を増やすなど、汎化能力の向上が重要になってきます。またモデルとしては、複雑な非線形モデルよりも、線形モデルの方が良い場合も多く、回帰係数にペナルティをかける正則化(リッジ回帰・LASSO回帰など)や、変数選択を行ったりして、単純なモデルにすると、過学習を回避できる場合も多いので試してみましょう。(回答者:理研AIP・濱崎)