● PLS-DAのVIP scoreの正しい取り扱い方。多変量解析ではよく,変数前処理として用いられる「Mean center(中心化),Pareto scale,Auto scale」を行ってから,PLS-DAなどを行う.PLS regressionやPLS-DAに関わらず,PLS手法を用いる多変量解析手法において,その変数重要度を表すスコアとしてVIP(variable importance for prediction)が頻用される.しかしながら,このVIPスコアは,変数前処理法によってスコア値が大きく変動するため,「greater than 1 rule」というのもあるが,本当に信用して良いかもわからない.
答:VIPは一種のスコアでしかなく,「大きければ重要度は高い」ということ以上のことは言えない.2群間判別問題のときは,たとえば,単変量解析であるT検定によるp-valueと共に用いることで(たとえば,x軸をp-value,y軸をVIPとする),まったく異なる変数評価方法でダブルポジティブとして検出された代謝物は重要であろうという過程のもと,「信頼性」を高めるために,このp-valueのような別の角度からの指標と総合して考えるのも良いのではと思う.(津川)
● ESI友の会のサイトにおいて、LOWESSとSplineによるデータの標準化が推奨されています。血液はそのままのデータを標準化すれば良いと思いますが、尿や他の組織のデータの場合は、クレアチニン当たりやタンパク量当たりに換算した値をさらに標準化すれば良いのでしょうか。
答:まとまった回答は無い.標準化はメタボロミクスの難しい課題の1つである.プロジェクトを開始する前に,研究者間で話し合い,方向性を決定した上で,進行させることが重要である.原則,LOWESSとSplineでは,「標準試料のピークに対して,何倍増減したか」というニュアンスで,定量値を議論することになる.それを回避するため,標準試料のイオン強度の平均値をLOWESS/Spline標準化後のデータに積算させることで,イオン強度値の情報を定量値に保持させるようなことを実際には行っている.これを行った上で,クレアチニンにより補正すれば,定量的な議論も少しは改善されるかもしれない.(津川)
● 多変量解析時の標準化のちがい(auto scalingとPareto scalingの使い分け)
答:HMTの山本博之らの論文は役に立つ.彼らの主張によれば,Auto scaleをすることで「検定」が使える.もはや,ローディングプロットは見る必要はなく,機械的にauto scale -> t-test -> p-valueによる評価,が可能となるので,auto scaleのほうが好んで用いられる.ただし,auto scaleは小さいイオン強度の代謝物も評価に積極的に関わるため,品質評価など「安定・簡便」もファクターに入ってくる場合には,pareto scaleも1つの手段と考えられる.というのも,その変数重要度は,イオン強度の大きさも加味されているからである.(津川)
● LCMSでのH付加、Na付加などの扱い(合算すべきが、別物と考えるのか)
答:別物と考える人物が多数.これの合算は,インフォマティクス側のテーマでもある.クロマト系に,Naが入っていない(つまり,unexpectedにNaが溶出してしまっていると考えられる)場合,基本的にはプロトン付加・ロスだけを考えることも良いのかもしれない(+アンモニア・ギ酸・酢酸アダクトなど溶媒に含んでいるもの由来と考えられるものであるならそれも使う).また,金属イオンに無理やり偏らせるという報告もある.(津川)
● メタボロームを説明変数としてPLS回帰分析を行い、得られたモデルの評価値としてR2とQ2を用いている。以前Q2が低かった(0.5以下など)ので説明変数をいくつか抜いたところQ2が改善されるケースがあったが、説明変数が少なすぎる場合にはR2やQ2が高くてもモデルが本当に正しいのか疑わしく感じる。そのため、R2やQ2以外にモデルの妥当性を評価する指標について知りたい。
答:今回は,品質評価にメタボローム解析の結果を利用したいという立場からの質問であった.品質評価には,「近赤外くらい簡単な方法」を目標としたい.そのような目標を立てる場合,化合物を測定する上で,「簡便で,安定して,」測定できる化合物を選択する必要がある.そのため,そもそも,PLS回帰が適切なのかを一考しても良いのかもしれない.変数をまず絞り込みたいとすれば,Lassoやelastic netによる正則化を行うのもありなのかもしれない.質量分析のイオン強度をベースに多変量解析を用いたPLSモデルを実用化することは,MSの感度ドリフトを考えると,実質上不可能のように思える.あくまでPLSでは変数重要度を評価し,モデルの構築には少数変数+単純モデル(重回帰・ロジスティック回帰)のほうが,質量分析ベースの手法構築では自然な流れのように思える.(津川)
● データ解析の注意事項 (QCの設定、便利なフリーソフトウェアなど)
答:便利なフリーソフトウェアや,「見ておくべきサイト」を教えてほしいという質問であった.RIKEN PRIMe,David Wishart lab,Oliver Fiehn lab,EMBL-EBI,Peter Dorrestein labのウェブサイトは,チェックしておくと良いかもしれない.(津川)
● PLSRまたはOPLSRにより回帰分析を行う際に特に注意することがあれば教えていただきたいです.を防ぐ方法というのはあるのでしょうか?
答:いきなりPLSやOPLSを行うと信頼性の低い結果になりがち。統計解析ではPCAや階層的クラスター解析、あるいはターゲット分析で特定化合物の増減が明らかである等のサンプルを特徴付けるような、ある種の学習モデルを用意する。(佐々木)
● 他のオミクスとメタボロミクスのトランスオミクス解析しようとした際に、データの解析手法はどのようなものがありますか?(現状は手探りとあてずっぽうで強引に解析しています)
答:遺伝子発現から代謝物変動を見ようとすると、生体内での安定性、酵素活性、代謝のフラックス等々の面から難しく、逆に代謝物変動から遺伝子発現を見るような時系列解析を行ってもリンクしていない事が多い。アプローチについて広く意見をお聞きしたい。(佐々木)
● オミクス解析で有用な解析ツールやソフトをご紹介ください。
答:ノンターゲット解析であれば、理研の津川さんの開発しているMS-FINDERやMS-DIAL等はおすすめです。ヒートマップやPCAを行えるMeVという無料ソフトも使いやすいです。(平山)
● 質量分析計から得られた各代謝物のデータの増減をどのように考察するか?
答:代謝上で妥当な変化か、論文上で生物学的に参考になる事象・知見があるかを調べたりして、考察するしかないと思います。場合によっては、遺伝子やタンパク発現のデータを参考に妥当性を評価するのも良いと思います。(池田)
● オミクスデータと臨床所見を組み合わせて、臨床所見に連動して動く成分を探したい場合に、どういう解析方法が適切か教えてください。
答:R studio(無料ソフト)による相関解析方法を習得してください。初心者でも2日くらいで使用できるようになるそうです。また、ネットワーク解析(できれば)による距離の近さで評価も有用です。一方、主成分分析においては、臨床データが第一主成分として寄与してしまう可能性があるので、扱う臨床データに十分な注意が必要です。(三枝)
● 予測モデルを作成したのち、予測モデルにサンプルの結果を導入するために使用する解析ソフトとして活用しているもの
答:予測モデルの種類によって異なりますが、私はあまり経験がありません。AIの導入をおススメします。(三枝)
● 高分解能の精密質量MSなどの機器の発展により,得られるデータの量は膨大になりました.最近ではdeep learningやAIを用いたピークの同定技術の開発が一部で行われ,膨大量のデータに対してより効率的で精密な解析を行う試みがあります.この他にdeep learningやAIを用いたメタボロミクス研究への応用例のアイデアをお聞きしたいです.
答:MSパラメーターの自動最適化。すでに一部はプロテオミクスに応用されている。
それこそ、定量。構造や物性情報からイオン化効率は将来的に予想されうるのでは?(中山)
● メタボロミクス初心者でも使いやすいデータ解析法がもしあれば教えていただけると幸いです。
答:基本的には、装置についてくるソフトを使うことになるので、メーカー、分析方法によって違います。
ただし、フリーのソフトも幾つか出ていて、理研の津川さんが配布しているソフトが使いやすいです。MRMならMRMPROBS、精密MSのデータならMS-DIALがオススメで、メーカーの種類を問わず解析することが可能で、見た目も使い安いです。ただし、前処理をせずに生データを俯瞰したい場合は各種メーカーのソフトを使いましょう。
ライフィックスのソフトも使いやすいとの噂ですが、有料です。
最近はクラウドアプリを提供しているメーカーもあります。
またよくわからないときはメーカー・製作者に質問しまくると色々と得るものが多いです。(中山)
● メタボローム解析を行ったあとで、どのような形でデータを保管するのが適切でしょうか?(生データか、解析データか、解析過程の紆余曲折をすべて残すのか、論文化した最終結果のみか、管理する形式は?、共有方法は?)
答:生データは必須だと思います。また解析後のデータも残しておいたほうがいいと思います。ただし、これだけでは不十分で、データのメタデータ(サンプル、サンプル前処理、分析方法、分析装置、解析ソフト、解析時のパラメーター)をあわせて残しておかないと、データの有用性が低下してしまうので、此のような情報をwordやexcelでまとめて、データと合わせて保存しておくのが望ましいと思います。
共有方法については、ラボ内であればHDDで十分だと思います。ただし、可能であればHDDがクラッシュしてもいいように、Network Attached Strage (NAS)等を活用してRAIDを組んで保存するのがいいと思います。最近であれば安価なもので2TBが2~3万円ほどで購入できます。http://kakaku.com/pc/nas/(中山)