世界中のデータはスカラー(一つの数値)ではなくベクトル(1次元配列)や行列(2次元配列)・テンソル(3次元以上の配列)である。たとえば、この科目で最初から扱っている水質データは水温、pHなど複数の測定項目が一つの組になったベクトルである。あるいは人間の属性も性別・年齢・職業・趣味等の複数の特性項目が一つの組になったベクトルである。今日の教材ではまずエコプレートという、環境中の微生物集団(微生物群集)がどんな種類の有機炭素化合物を細胞成長のための基質として利用できるかを定量化できる実験キットからのデータをデモとして用い、多変量解析の第一歩としての「次元削減」による可視化技術の基礎について学ぶ。その後、これまでも使ってきた水質の仮想データを用いて自らコードを書き、主成分分析のグラフ作成をしてもらう。
それでは、エコプレートのサンプルデータを用いた多変量解析のための準備をする。まずは、データの取得情報をまとめたファイルをダウンロードする:metadata_osaka.csv
さらにエコプレートの測定結果に前処理(説明は省略)を済ませたものをダウンロードする:osaka_summary_integ_ave.csv
これらのデータを使って多変量解析の基礎の解説をおこなうので、新しいRスクリプトを作成し、この解析に必要なライブラリーの読み込みとデータの読み込みを行う。
library(vegan)
metadata_osaka <- read.csv("metadata_osaka.csv", header=T)
osaka_summary_integ_ave <- read.csv("osaka_summary_integ_ave.csv", header=T)
metadata_osaka$place_sample <- as.factor(metadata_osaka$place_sample)
これで準備OK
ここからは、別の教材サイトを用いて解説する:ここ
今日の課題
この解説内容の理解が進んだら、以前から使っている、test_random_osaka.csv の水質データにおいて主成分分析を行い、実際に可視化してみましょう。