1. 標準化の目的および実験計画

今回,設置するコラムでは,データの標準化方法について議論したいと思います.内容は,500や1000,ましてや1万,1億検体規模のメタボローム分析データをどのように統合するかについて書きます.GC/MSやLC/MS,つまり質量分析装置を検出器としたメタボローム解析は,MSの感度ドリフト,(GCMSなら)誘導体化効率の時間変動,などなど,「同じ検体を分析したとしても」定量値に大きな違いが生まれます.CV値にして,大きい時はLC/MSなら20%,GC/MSなら30%まで許容しなければならないという文献もあります.

しかも,これら20%や30%という数値は,「同一バッチ内」においてのみ成り立ちます.ここで言う同一バッチとは,LC/MSの場合,

・同じ日に作った溶媒で

・同一ロットのカラムで

・イオンソースやその他,メンテナンスを挟まず

・装置をスリープ状態や,平衡化工程を挟まない

ということで分析できたサンプル群のことを言います.上記の要素,たとえばイオンソースを洗ってしまっては,その前後で劇的な定量値変動が起きます.しかし,大規模分析中,メンテナンスを一度も行わないでいることはしないと思います.また,メトキシアミン・MSTFAによる誘導体化をベースとしたGC/MSメタボロミクスの場合,アミノ基を持っている化合物の定量値信頼性は,ヒドロキシル基のみを持っている化合物群と比べると「同一バッチ内でさえも」厳しいものがあります.LC/MSについても,バッチ内で感度ドリフトが無視できないものも多いです.(ハードウェアの誤差)

挙句の果てに,ノンターゲット解析を試みる場合,「ピークピッキング」や「多検体間のピークアライメント」に間違いが含まれている可能性も否定できません.(ソフトウェアの誤差)

このようなハードウェアの誤差,ソフトウェアの誤差をバッチ内で補正することに加え,大規模検体の場合,「バッチ間」での補正も行わなければ,たとえ統計解析を行ったとしても,得られた結果に,何の信頼性も無くなってしまいます.

ここでは,このような問題を解決するための標準化テクニックを紹介し,身のある統計解析,バイオマーカー探索を行う環境づくりを行うことを目標とします.

この辺の話は,2014年度の日本生物工学会にて津川先生が発表されていたスライドに,概要がまとめられておりますので,それも合わせてご参照ください.

https://sites.google.com/site/esitomonokai/huo-dong-ji-lu/2014nian-ri-ben-sheng-wu-gong-xue-hui

また,ここで取り扱うお話は,以下の2つの論文を参考にしています.

Dunn, W. B. et al. Procedures for large-scale metabolic profiling of serum and plasma using gas chromatography and liquid chromatography coupled to mass spectrometry. Nat. Protoc. 6, 1060–83 (2011).

Want, E. J. et al. Global metabolic profiling of animal and human tissues via UPLC-MS. Nat. Protoc. 8, 17–32 (2013).

まずここで紹介する方法論は,以下の実験系が達成できていることを前提とします.

1.保持時間のドリフトが少ない,安定なクロマト分析系

2.質量校正において3-5 ppm以下の精度が保たれている

3.完全に同一試料だと仮定できるクオリティコントロール(QC)サンプルが利用可能

上記1と2に関しては,データ解析におけるピークアライメントの負担を減らすことを目標にしています.ターゲット解析の場合はこの限りではありませんが,ノンターゲット解析をうまく行うにあたって,この条件は必須となってきます.3に関して,メタボロミクス分野で近年言われるQCというのは何か?そして使われる目的は何か?ということを簡単に説明記載しておきます.

メタボローム解析において,質量分析の感度ドリフトは深刻な問題です.GC/MSに至っては,これに加え誘導体化後の安定性まで考慮しないといけません.このような定量値の変動を補正するためにはどうすればよいのか?ということで,少し前まで1つもしくは複数化合物の内部標準物質の定量値で標準化することも行われておりましたが,測定対象が多岐に渡るメタボロミクスにおいて,すべての代謝物を正当に標準化できているとは言えませんでした.

一応補足しておくと,内部標準物質を加える意義は未だにあると思います.

1.保持時間のドリフトを確認できる.→時に,保持時間補正に用いられる.

2.感度の大幅な乱れが無いか確認できる.→外れ値サンプルとしての指標となる.

3.抽出効率(マトリックス効果を一切受けていない場合に限られるので厳しいかもですが)を評価できる.

などなど,他にもあるかもしれませんが,内部標準物質から得られる情報は多いと思います.ただ,今回の目的では,「全代謝物質の装置による定量値補正」を目的としています.そこで近年用いられているのは,「分析対象サンプルすべての抽出液から10-50 mLずつ取り分けて混合させたミクスチャー」により,補正するというものです.管理人は,このミクスチャーのことを,全サンプルからのプールミックスであるということで,「pooled QC」と呼んでいます.(以下,資料の一部抜粋)

このように作ったQCを,「5-8サンプルに1回分析できる」分量で分析用バイアルに取り分けます.管理人はGC/MS分析においては,1バイアルから何回もQC分析を行うということはしません.必ず,QC分析回数分,分析バイアルを準備して,それに取り分けて「1バイアル1インジェクション」で行います.別にGC/MSだけでなく,LC/MSで対象とする場合も,1バイアル1インジェクションがベストかと思います.代謝物が空気に触れることで酸化を防ぐ,特にGC/MSの場合は(湿度が高い環境であれば特に)水蒸気の侵入による誘導体化物の加水分解反応を気にするからです(管理人は「気にしー」なんです).

QCを用いるメリットは,

1.全サンプルに存在する代謝物がすべて含まれている(装置でも検出されるはず).

2.分析を重ねる上で,「このサンプルは必ず同じものを測っている」と,言及できる

ことに尽きます.特に,今回のpooled QCサンプルを用いることによる定量値標準化のトリックは,「QC測定によって得られる代謝物由来ピークの定量値は,常に一定であるべきである」という仮定を元にします.また,LC/MSでは,カラムや他の配管・流路のコンディショニングにも使われるそうです.つまり,100%金属フリー(イナート)でない限り,化合物の「保持」はカラム以外の部分でも起こってしまいます.これを最小限にするべく配管のつなぎ方,ナットの締め方に皆さん注意を払われるかと思いますが,この金属部分との相互作用を,「(イメージで言うと)QCにより配管をコーティングしておく」ことで,抑えようとする試みがなされます.ですので,上で紹介している2つの論文は,実サンプル分析の前に8-10回ほど,pooled QCを打ち続けています.

そして,このようなpooled QCを,「5-8サンプルに一度」の割合で,実試料分析の合間合間に分析することを行います.(以下,資料一部抜粋)

もちろん,実サンプルの分析順番は,「バイアス」が係らないようにランダマイズ(適当に,エクセルかなにからのrand()関数を使えばできるはず)しておくことは忘れずにですね.

さて,このようにして得られた定量値を元に,各化合物の定量値をどのように補正するか?なのですが,その理論と実際の標準化プログラムの使い方は次回に回します!とりあえず,今日はこの辺で.