3. LOWESSとSplineによる標準化(実践編)
さて,前回理論でお話した,LOWESSとSplineによる標準化について,実際どうやるか?を説明したいと思います.色々,簡単にできるRパッケージがないかなーとか,ずっと探していたのですが,しっくりくるものが無かったので,腹をくくって自分でコーディングしてみました.
LOWESSとSplineのコーディングは行っていたのですが,クロスバリデーションのコーディングが面倒だからずっと据え置きにしていたのですが,これを良い機会として書かせていただきました.
ソフトウェア自体はものすごく単純で,以下のフォーマットで記載されているようにデータ行列を作成します.
1列目はサンプル名
2列目はQC(TRUE)かサンプル(FALSE)
3列目は分析順番
4列目以降は各化合物の定量値です.
ポイントは,おそらく,このようなデータ行列はエクセルかなにかで整理すると思うのですが,整理した後は,必ず「タブ区切りテキストファイル」として保存してください.
プログラムおよび,デモ用のデータ行列は以下のサイトからダウンロードできるようになっています.
http://prime.psc.riken.jp/Metabolomics_Software/LOWESS-Normalization/index.html
以下,使い方
1.ダウンロードしたプログラムZipファイルをまず解凍してください.
2.フォルダー内にあるLowessNormalizationSample.exeを開いてください.
3.「Browse」ボタンをクリックし,用意していただいたデータ行列を選択してください.
4.「Load」ボタンをクリックし,指定したファイルのデータを読み込んでください.うまく読み込めていたら,QC numberやMinimum span size等が表示されます.フォーマットが違っていたら,そのエラーメッセージが表示されますので,それに従って修正してください.
5.前回のコラムに書きましたが,LOWESSとSplineによる標準化でのパラメーターは,Spanと呼ばれる0から1の値です.これを客観的に決定するためにQCサンプルのみの情報を使った7 fold cross validationにより,最適パラメーターを決定するようにしました.「Span opt.」ボタンからできます.
6.最後に,「Export」ボタンを押したら,標準化された結果が,元のデータ行列ファイルと同じ階層に出力されます.
皆様のお役に立てればと思うのですが…何か,バグ等がございましたら,管理人までお知らせください.
それでは,本日は短いですが,この辺で!