世界中のデータはスカラー(一つの数値)ではなくベクトル(1次元配列)や行列(2次元配列)・テンソル(3次元以上の配列)である。たとえば、以下のデータは水温、pHなど複数の測定項目が一つの組になった水質データでありベクトルである。
水質データ:"test_random_osaka.csv" ダウンロードはここ(龍大IDで要ログイン)
あるいは人間の属性も性別・年齢・職業・趣味等の複数の特性項目が一つの組になったベクトルである。今日の教材ではエコプレートという、環境中の微生物集団(微生物群集)がどんな種類の有機炭素化合物を細胞成長のための基質として利用できるかを定量化できる実験キットからのデータをデモとして用い、多変量解析の第一歩としての「次元削減」による可視化技術の基礎について学ぶ。その後、上の水質の仮想データを用いて自らコードを書き、主成分分析のグラフ作成をしてもらう。
それでは、エコプレートのサンプルデータを用いた多変量解析のための準備をする。まずは、データの取得情報をまとめたファイルをダウンロードする:metadata_osaka.csv
さらにエコプレートの測定結果に前処理(説明は省略)を済ませたものをダウンロードする:osaka_summary_integ_ave.csv
水質のデータおよびエコプレートのデータを使って多変量解析の基礎の解説をおこなうので、新しいRスクリプトを作成し、この解析に必要なライブラリーのインストール・読み込みとデータの読み込みを行う。データの読み込みにはread.csv()という関数を用いるが、読み込みを失敗しないポイントは(1)ここで作るRスクリプトとデータファイル(csvファイル)を同じフォルダに保存すること、(2)保存用のフォルダおよびその上層のファルダには日本語フォントを一切使わないこと(基本的に大学アカウントのOnedriveフォルダより下層には置かないこと)、(3)RStudioのツールバーの"Sessions">"Set Working Directory" > "Set Source Location"と順にたどって作業ディレクトリをRスクリプトが保存されているフォルダにしてすることである(こちらも参照;Rをダイレクトに使う場合はRのツールバーからファイル>ディレクトリの変更を選ぶ)。
library(vegan)
test_water_data <- read.csv("test_random_osaka.csv",header=T)
metadata_osaka <- read.csv("metadata_osaka.csv", header=T)
osaka_summary_integ_ave <- read.csv("osaka_summary_integ_ave.csv", header=T)
metadata_osaka$place_sample <- as.factor(metadata_osaka$place_sample)
これで準備OK
まずは水質データについて簡単な可視化をおこなう。
ここからは、別の教材サイトを用いて解説する:ここ
今日の課題
この解説内容の理解が進んだら、以前から使っている、test_random_osaka.csv の水質データにおいて主成分分析を行い、実際に可視化してみましょう。以下ヒントです。
使うデータはデータフレームmeta_and_envの3列目から7列目まで meta_and_env[, 3:7]
主成分分析の色分けには一列目の情報を使うcol=2*as.numeric(as.factor(meta_and_env$place))
できたらmanabaからRスクリプトを提出してください。