EcoPlate解析 (2)

４）エコプレートの生データの変換

まずは以下の図の要領で生データを積分と標準の方法の二通りのやり方で変換します。

いまのところ、osaka_dataというリストにすべてのエコプレートのデータが複数のサンプルごちゃまぜで格納されています。これをサンプルごとに分けないと、上図の積分や標準の方法へとデータを変換できません。meta_testにはsample_IDというサンプルを区別する情報が「整数(integer)」として格納されています。

#We need to separate the data set into each sample with multiple measurements

class(meta_test$sample_ID[3]

実際にサンプル数がいくつあるかはmeta_testの中身を見れば分かるわけですが、以下の二つの方法で確認するほうがよいです。

#number of samples

max(meta_test$sample_ID)

#OR

length(levels(meta_test$date_time_sample))

次にリストを作り直して、sample_IDごとに吸光度の測定回数分だけ存在する複数のデータを整理したいと思います。実はリストは基本的に何でもありなので、リストの要素をさらにリストにすることもできます。以下のような方法をとれば、二次元マトリクスのようにリストを扱うことができ、マトリクスの一つ一つの要素にひとつの観測結果（９６個の値）を格納することができます。

#trial to generate the list of list

test_list<-list()

test_list[[1]]<-list()

test_list[[1]][[1]]<-osaka_data[[1]]

test_list[[1]][[2]]<-osaka_data[[2]]

test_list[[1]]

test_list[[1]][[2]]

このトライアルを元に、sample_listというリストを作って、sample_list[[サンプルID]][[k]]という形式でサンプルIDごとにk番目の観測結果を格納することにします。

#separating the data to sample ID-specific list

sample_list<-list()

no_sample<-max(meta_test$sample_ID)

for(i in 1:no_sample) {

  sample_list[[i]]<-list()

同様にメタデータもサンプルIDごとに分割したいのですが、今度はリストの各要素はリストではなくデータフレームにすればよいです。そのためには以下のようにリストを用意します。

#summarizing the metadata into sample-ID-specific list

metadata_list<-list()

no_sample<-max(meta_test$sample_ID)

for(i in 1:no_sample) {

  metadata_list[[i]]<-as.data.frame(meta_test[1,])

さて、各サンプルごとに観測回数が何回分あるかは、メタデータでそれぞれのsample_IDのものがいくつあるか数えればよく、たとえばsample_IDが５のものは以下のように確認できます。

#Check the number of repeated measurements

sum(meta_test$sample_ID==5)

それでは以上の準備を踏まえて、以下のような二重ループを用意すれば、エコプレート観測データおよびメタデータをサンプルIDごとに整理できます。

i<-1 #initialization

for(j in 1: no_sample) {

  no_measurement<-sum(meta_test$sample_ID==j) #check the number of repeated measurements

  #loop for loading all measurement results from sample index j

  for(k in 1:no_measurement) {

    sample_list[[j]][[k]]<-osaka_data[[i]] #copy the data of each measurement into sample_list[[sample_index]]

    metadata_list[[j]][k,]<-meta_test[i,] #copy the metadata

    i<-i+1 #update the index of the raw data (list osaka_data)

この結果がどうなっているかは、たとえばサンプルID３の中身を以下のように確かめれば分かるでしょう。

#example

sample_id<-3

sample_list[[sample_id]]

metadata_list[[sample_id]]

以上のスクリプトによって作成したデータリストsample_listとメタデータリストmetadata_listを入力パラメータとするような、積分を自動で行うための関数を以下のように準備します。最初の数行は関数の定義情報です。この関数はecop_series, metadata, min_interval_hourの3つのパラメータがあり、アウトプットはデータフレームとなります。アウトプットのデータフレームにはひとつのサンプルからの積分値が格納されることになります。

##########[2] Definitions of functions to data arrangement (integration, maximum, average, minimum, etc)##################

#The function for taking integration (=calculation of the area below the color development curve) even when there are gaps in measurement dates

##########################list of parameters

#ecop_series: data source of ecopalte color patterns from the single sample ID (list format)

#metadata: metadata, we need the information of measured time

#min_interval_hour, the minimum interval hour, here 24 hours

##################Output is a dataframe

integ_ecoplate <- function(ecop_series, metadata, min_interval_hour=24)

次の数行は、観測間隔時間(min_interval_hour)を使って観測回数、観測期間等を計算するスクリプトです。最初の行はサンプルひとつにつき複数ある観測データを格納するためのリストの準備です。sampled_indexはメタデータリストに含まれている培養開始後何時間目に吸光度を測定したかという情報(metadata$measured_time)を何日目かという情報を変換したものです。end_sampleはsampled_indexの最大値なので何日目まで観測したかがこれでわかります。注意しないといけないのは、length_periodは実際の観測回数ですが、これはend_sampleよりも少なくなる可能性があります。なぜなら培養開始6日後（144時間後）が最終観測だとしても、3、4日後には観測をしていなければ、end_sampleの値は6になる一方、length_periodは3になります。

 data_eco <- list() #prepare an empty list

 sampled_index <- metadata$measured_time/min_interval_hour   #convert hours to n-th observation (n-th day)

 end_sample <- max(sampled_index)   #The final date of the measurement

 length_period <- length(ecop_series) #size of the samples, generally less or equal to end_sample, because the interval of the observation is ofen longer than min_interval_hour

次の１行では、ecop_seriesに格納されている複数観測日のデータをdata_ecoにコピーします。このときも、sample_indexは{1,2,5,6}の４つの値しかないので,data_eco[3], data_eco[4]は空(NULL)のままになります。

for(i in 1: length_period) data_eco[[sampled_index[i]]] <-ecop_series[[i]] #load the ecoplate data only for sampled dates, some of the element of data_eco can be empty (NULL)

次の二行では、data_integというデータフレームを用意して、そこに最初のデータを格納します。

data_integ <- data.frame()  #prepare a data frame

data_integ <- data_eco[[1]] #Note that "data_eco" should be a list; each item is the information of color development from each measurement date.

さて、それ以降のiに関するforループの中身が実際の積分プロセスに相当するのですが、観測間隔がまばらな場合（たとえば、３，４日後にデータがない場合）を想定しています。実際の計算は複雑な積分近似などせず、以下の図で示すような計算になっています。

上のグラフは96ウェルあるマイクロプレートのうち、ひとつのウェルの吸光度を表していると思ってください。実際に観測地があるのは、２４，４８，１２０，１４４時間後の4つです。以下のスクリプトでは、forループのインデックスiが1から6に向かって一つずつ増えていきますが、iが３になったとき（上のグラフの72時間後に対応）、data_eco[[3]]にはデータがありません(NULL)。この判定はif(is.null(data_eco[[i]])) の条件判定で可能です。is.null()が真のときは、次のjのループによって、データが存在する120時間後(j=5)のところまで探索していきます。j=5になったところで、(!is.null(data_eco[[j]])が真になるので、太字で書かれているkのループを用いて、欠損データを補完します。補完の仕方は上の図にあるように48時間後の値と120時間後の値を直線でつなぐ簡単なものとしました。

for(i in 2:end_sample) {

    #first check the NULL dates (lack in measurement)

    if(is.null(data_eco[[i]])) {

      for(j in (i+1):end_sample) { #search for all NULL dates until non-Null date

        if(!is.null(data_eco[[j]])) {  #when encountring the non-Null date (j)

          for(k in i: (j-1)) data_eco[[k]] = ((j - k)*data_eco[[i-1]] + (k - i + 1)*data_eco[[j]])/(j - i + 1)  #use linear line of two non-NULL dates (i-1 & j)

          break   #skip further loop when non-zero data is found

          }#end of if data_eco[[j]]

      }#end of for j

    }#end of if data_eco[[i]]

このようにして空のdata_eco[[k]]に値を入れた後、以下のように単純に補完値も含めた一日後との値を単純に足していきます。これは、上の図の灰色の棒グラフの総面積を計算するという、積分近似です。もっとちゃんとした近似も用意できると思うのですが今はこれで良しとします。

data_integ <- data_integ + data_eco[[i]]  #each element of data_eco[[i]] was individually added.

  }#end of for loop i

最後に観測期間で積分値を割ることで、観測期間が異なるサンプル間のばらつきを補正します。

data_integ/(end_sample*min_interval_hour)  #output, take the average value over the integration period, i.e., the normalization by integration period

このように関数を定義すれば、一つのサンプルについては例えば次のようにコンソールで実行結果を確認できます。

> sample_id<-4

> integ_ecoplate(ecop_series=sample_list[[sample_id]], metadata_list[[sample_id]], min_interval_hour=24)

           V1          V2          V3          V4          V5          V6          V7          V8          V9         V10         V11         V12

A 0.003101190 0.003029762 0.005258929 0.009366071 0.013357143 0.003461310 0.006866071 0.012779762 0.002916667 0.004008929 0.005410714 0.009952381

B 0.013651786 0.013860119 0.008663690 0.013125000 0.014080357 0.032985119 0.008386905 0.024922619 0.013059524 0.014000000 0.009032738 0.021288690

C 0.013592262 0.003193452 0.002702381 0.004514881 0.014809524 0.003488095 0.002398810 0.003205357 0.012190476 0.003354167 0.002455357 0.003413690

D 0.009056548 0.005023810 0.006800595 0.016619048 0.008199405 0.004750000 0.005482143 0.012154762 0.007809524 0.007529762 0.015559524 0.016934524

E 0.014101190 0.012833333 0.004172619 0.003681548 0.014827381 0.015178571 0.003818452 0.003779762 0.013169643 0.017023810 0.003514881 0.004056548

F 0.022017857 0.004964286 0.005997024 0.010467262 0.027886905 0.003592262 0.003937500 0.008949405 0.017943452 0.003363095 0.004735119 0.014077381

H 0.004181548 0.003544643 0.004979167 0.004633929 0.003872024 0.003217262 0.005169643 0.006580357 0.003767857 0.003535714 0.005550595 0.004443452

G 0.003776786 0.005199405 0.005005952 0.009931548 0.003166667 0.005229167 0.004812500 0.006276786 0.002913690 0.005029762 0.003267857 0.011389881

それでは、上で作成したデータリストsample_listとメタデータリストmetadata_listのそれぞれの要素を呼び出して積分値を計算する仮定をループの中に入れて以下のようにすべてのサンプルの積分値を取りましょう。

#integrating all samples

integrated_osaka<-list() #prepare emplty list

no_sample<-max(meta_test$sample_ID)

for(i in 1:no_sample) integrated_osaka[[i]] <- integ_ecoplate(ecop_series=sample_list[[i]], metadata_list[[i]], min_interval_hour=24)

integrated_osaka

次に各サンプル、観測最終日のデータだけを使う標準的方法に則ってデータを抽出しましょう。これは非常に簡単で、サンプルごとにsample_list[[サンプルID]][[k]]の最後のkにlength(sample_list[[サンプルID]])で簡単にアクセスできるので、以下のようにすればよいだけです。

#extracting only the final day measurement data

#example

sample_list[[1]][[length(sample_list[[1]])]]

finalday_osaka<-list() #prepare emplty list

no_sample<-max(meta_test$sample_ID)

for(i in 1:no_sample) finalday_osaka[[i]] <-sample_list[[i]][[length(sample_list[[i]])]]

finalday_osaka

以上で生データの変換の第一段階は終わりです。

それでは、生データ変換の第二段階です。ここでは、それぞれの基質ごとに３つある繰り返し値の処理を行います。次の図にあるように、コントロール（ブランク）ウェルを含めてプレート内3繰り返しについて、最大値、平均値、最小値の3つの処理を施します。

これらの処理には、ひとつのプレートからのデータがA-Gの8行・V1-V12の12列のデータフレームに規則的に格納されていること、V1-V4,V4-V8,V9-V12が3つの繰り返し一つ一つに対応することに注目します。（V1,V5,V9）、（V2,V6,V10）（V3,V7,V11）、（V4,V8,V12）のそれぞれのグループで最大・平均・最小について計算すればよいことになります。

平均が一番簡単で、それぞれの列を指定すればそれぞれの行ごとに計算してくれるので、以下の感じで平均が取れます。

data_ave1<-(data_f$V1+data_f$V5+data_f$V9)/3.0

この計算を各グループごとに行って最後にappendという関数を繰り返し使えば96個の値を32個の平均値へと変換できます。関数は以下のようになります。ちなみに太字部分data_sum_nor<-data_sum - data_sum[1] #normalizing by water wellはコントロール（ブランク）の値との差をとることですべての基質の吸光度の標準化過程になっています。

#The function for averaging triplicate

#The parameter is data frame

#Output is a vector

ave_ecoplate <- function(data_f){

  data_ave1<-(data_f$V1+data_f$V5+data_f$V9)/3.0  #take average

  data_ave2<-(data_f$V2+data_f$V6+data_f$V10)/3.0

  data_ave3<-(data_f$V3+data_f$V7+data_f$V11)/3.0

  data_ave4<-(data_f$V4+data_f$V8+data_f$V12)/3.0

  data_sum<-append(append(append(data_ave1,data_ave2),data_ave3),data_ave4)  #combine data

  data_sum_nor<-data_sum - data_sum[1] #normalizing by water well

  data_sum_nor #output

これは以下のように使うことができます。出力された値はもはやデータフレームではなく、一行のベクトルとなっています。

> sample_id<-2

> ave_ecoplate(finalday_osaka[[sample_id]])

 [1]  0.000000000  0.466666667  0.688333333  0.035000000  0.837666667  0.087666667  0.541333333 -0.333000000 -0.191666667 -0.324333333 -0.346333333 -0.072666667

[13]  0.784666667 -0.161333333 -0.342000000 -0.174333333  0.312666667  0.323333333 -0.372666667 -0.268666667 -0.314333333 -0.009666667 -0.350333333 -0.305000000

[25] -0.114333333  0.845333333 -0.329000000  0.524000000 -0.327333333  0.125666667 -0.269333333 -0.090333333

次に、最大値と最小値については同一の基質に対応する値を３つとって指定する必要（たとえば、max(data_f$V1[1],data_f$V5[1], data_f$V9[1])）がありますが、簡単に以下のように定義できます。

#The function for taking maximum of triplicate

#The parameter is data frame

#Output is a vector

max_ecoplate <- function(data_f){

  data_max<-max(data_f$V1[1],data_f$V5[1], data_f$V9[1])

  for(i in 2:8) data_max <-append(data_max, max(data_f$V1[i], data_f$V5[i], data_f$V9[i]))

  for(i in 1:8) data_max <-append(data_max, max(data_f$V2[i], data_f$V6[i], data_f$V10[i]))

  for(i in 1:8) data_max <-append(data_max, max(data_f$V3[i], data_f$V7[i], data_f$V11[i]))

  for(i in 1:8) data_max <-append(data_max, max(data_f$V4[i], data_f$V8[i], data_f$V12[i]))

  data_max_nor <- data_max - data_max[1]  #normalizing by water well

  data_max_nor  #output

#The function for takign minumu of triplicate

#The parameter is data frame

#Output is a vector

min_ecoplate <- function(data_f){

  data_min<-min(data_f$V1[1], data_f$V5[1], data_f$V9[1])

  for(i in 2:8) data_min <-append(data_min, min(data_f$V1[i], data_f$V5[i], data_f$V9[i]))

  for(i in 1:8) data_min <-append(data_min, min(data_f$V2[i], data_f$V6[i], data_f$V10[i]))

  for(i in 1:8) data_min <-append(data_min, min(data_f$V3[i], data_f$V7[i], data_f$V11[i]))

  for(i in 1:8) data_min <-append(data_min, min(data_f$V4[i], data_f$V8[i], data_f$V12[i]))

  data_min_nor <- data_min - data_min[1]  #normalizing by water well

  data_min_nor  #output

それではintegrated_osaka, finalday_osakaに格納されたそれぞれのデータに平均・最大・最小の処理を施し、データフレームにまとめて、ローカルフォルダにもcsvファイルとして保存しましょう。

積分した値の基質ごとの平均値を取るには以下のようにループを使えば可能です。

#Integration + average

osaka_summary_integ_ave<-ave_ecoplate(integrated_osaka[[1]])

for(i in 2: length(integrated_osaka)) osaka_summary_integ_ave<-rbind(osaka_summary_integ_ave,ave_ecoplate(integrated_osaka[[i]]))

View(osaka_summary_integ_ave)

同様に積分値からの最大・最小、最終日データからの平均・最大・最小も同じように処理できます。

#Integration + max

osaka_summary_integ_max<-max_ecoplate(integrated_osaka[[1]])

for(i in 2: length(integrated_osaka)) osaka_summary_integ_max<-rbind(osaka_summary_integ_max,max_ecoplate(integrated_osaka[[i]]))

#Integration + min

osaka_summary_integ_min<-min_ecoplate(integrated_osaka[[1]])

for(i in 2: length(integrated_osaka)) osaka_summary_integ_min<-rbind(osaka_summary_integ_min,min_ecoplate(integrated_osaka[[i]]))

#finalday + average

osaka_summary_final_ave<-ave_ecoplate(finalday_osaka[[1]])

for(i in 2: length(finalday_osaka)) osaka_summary_final_ave<-rbind(osaka_summary_final_ave,ave_ecoplate(finalday_osaka[[i]]))

#finalday + max

osaka_summary_final_max<-max_ecoplate(finalday_osaka[[1]])

for(i in 2: length(finalday_osaka)) osaka_summary_final_max<-rbind(osaka_summary_final_max,max_ecoplate(finalday_osaka[[i]]))

#finalday + min

osaka_summary_final_min<-min_ecoplate(finalday_osaka[[1]])

for(i in 2: length(finalday_osaka)) osaka_summary_final_min<-rbind(osaka_summary_final_min,min_ecoplate(finalday_osaka[[i]]))

これらの処理によってデータをまとめることができるのですが、まだデータの形式がmatrixとなっている（class(osaka_summary_final_ave)）ので、以降の多変量解析に使うことを想定してデータフレームへと変換します。このとき、コントロールの値（すでに０に標準化されている）はosaka_summary_integ_ave[,-1]によって削除します。

#convert them into dataframe, delete the control value (0)

class(osaka_summary_final_ave)

osaka_summary_integ_ave<-as.data.frame(osaka_summary_integ_ave[,-1])

osaka_summary_integ_max<-as.data.frame(osaka_summary_integ_max[,-1])

osaka_summary_integ_min<-as.data.frame(osaka_summary_integ_min[,-1])

osaka_summary_final_ave<-as.data.frame(osaka_summary_final_ave[,-1])

osaka_summary_final_max<-as.data.frame(osaka_summary_final_max[,-1])

osaka_summary_final_min<-as.data.frame(osaka_summary_final_min[,-1])

メタファイルについても上のデータフレームと対応した形で後ほど多変量解析で使いたいので以下のように変換します。

#prepare the meta data file again for sample_ID

metadata_osaka<-metadata_list[[1]][1,1:3]

for(i in 1:length(metadata_list)) metadata_osaka<-rbind(metadata_osaka,metadata_list[[i]][1,1:3])

metadata_osaka<-as.data.frame(metadata_osaka)

以上の結果はそれぞれwrite.csv()という関数を使うと指定したパスのフォルダにcsvファイルとして保存することができます。

#write the result into csv files

write.csv(metadata_osaka, "./metadata_osaka.csv", row.names=F, quote=F)

後々使うことも考えて以下のように全部保存しておきます。

write.csv(osaka_summary_integ_ave, "./osaka_summary_integ_ave.csv", row.names=F, quote=F)

write.csv(osaka_summary_integ_max, "./osaka_summary_integ_max.csv", row.names=F, quote=F)

write.csv(osaka_summary_integ_min, "./osaka_summary_integ_min.csv", row.names=F, quote=F)

write.csv(osaka_summary_final_ave, "./osaka_summary_final_ave.csv", row.names=F, quote=F)

write.csv(osaka_summary_final_max, "./osaka_summary_final_max.csv", row.names=F, quote=F)

write.csv(osaka_summary_final_min, "./osaka_summary_final_min.csv", row.names=F, quote=F)

これで生データの変換は終了です。上の図にあるようなfunctional matrix (データフレームの形式ですが)が積分（平均・最大・最小）、最終（平均・最大・最小）のそれぞれの処理で得られたことになります。

Google Sites

Report abuse