前回紹介したSeven Golden Rulesは,プリカーサーイオンのm/zおよび同位体比情報から,組成式を絞り込む方法を紹介しました.そして今回からは,その絞り込んだ組成式からMS/MSスペクトルの情報を用いて化合物構造を推定する方法を紹介します.
色々なソフトウェアを,紹介していきたいと思いますが,すべてに共通している事柄は,
「化合物構造から推定されるin silico(コンピューターによりシミュレーションされた) MS/MSスペクトルと,実測のMS/MSスペクトルを照らしあわせ化合物の順位付けを行い,最も正しいと考えられる化合物構造を推定する」
ということです.
今回のコラムで紹介するのは,MetFragと呼ばれるソフトウェアです.
Wolf, S., Schmidt, S., Müller-Hannemann, M., & Neumann, S. (2010). In silico fragmentation for computer assisted identification of metabolite mass spectra. BMC Bioinformatics, 11, 148.
少し余談ですが,BMC Bioinformaticsって自分の意見を主張したいときは良いジャーナルですよね.投稿するとき,ページ数に制限はなかった気がします.それに比べ,Analytical ChemistryやBioinformaticsはimpact factorは高いですがページ数が限られているので,自分の主張を思う存分言いたければ,BMC Bioinformaticsも良いなと思います.それにしても,BioinformaticsやBMC Bioinformaticsはimpact factorが下がっている一方で,Analytical Chemistryは6弱を保っているのはすごいですね.
余談はこのくらいにして,使い方の説明に入ります.どのようにフラグメンテーションをしているのか?など,詳細な説明は,また別のコラムを立ち上げて書きます(果たしてそのコラムの閲覧者がいるのかは別として).今回,MassBankの以下のレコードを使ってみます.
NAME: Apigenin; LC-ESI-QTOF; MS2; CE
PRECURSORMZ: 271.06062
PRECURSORTYPE: [M+H]+
INSTRUMENTTYPE: LC-ESI-QTOF
INSTRUMENT: UPLC Q-Tof Premier, Waters
Authors: Matsuda F, Suzuki M, Sawada Y, Plant Science Center, RIKEN.
License: CC BY-SA
SMILES: OC1=CC=C(C=C1)C1=CC(=O)C2=C(O)C=C(O)C=C2O1
INCHI: InChI=1S/C15H10O5/c16-9-3-1-8(2-4-9)13-7-12(19)15-11(18)5-10(17)6-14(15)20-13/h1-7,16-18H
INCHIKEY: KZNIFHPLKGYRTM-UHFFFAOYSA-N
COLLISIONENERGY: 30
FORMULA: C15H10O5
RETENTIONTIME: -1
IONMODE: Positive
MASSBANKACCESSION: PR100224
Links: CAS 520-36-5; CHEMSPIDER 4444100; KEGG C01477; KNAPSACK C00003817; PUBCHEM CID;
Comment: PrecursorMz=271.06062, PrecursorType=[M+H]+, InstrumentType=LC-ESI-QTOF, CE=30 V
Num Peaks: 11
67.0186 61
68.9985 54
91.0549 109
119.0501 159
121.0305 56
141.0732 20
145.0296 69
153.0198 339
163.0419 24
243.0659 22
271.0606 125
ApigeninというフラボンのMS/MSスペクトルのレコードですが,今回,この化合物がMassBankに無かったとして,未知ピークだったとして,
「MetFragさん,プリカーサーイオンが271.06062で,アダクトイオン情報はおそらく[M+H]+で,MS/MSスペクトルが11本(上記のように)取れていて,Mass accuracyはMS1で5 ppm,MS/MSは20 ppmくらいなんですが,これが何だか教えてくれません?」
という具合にやってみましょう.
1. まず,MetFragのサイトを訪問します.
http://msbi.ipb-halle.de/MetFrag/
2. そして,右のParent ionのところに271.06062を入力して,アダクトイオン情報として [M+H]+を選んで,Calculateボタンを押して下さい.すると,左側のneutral exact massに270.0528といったような値が入ると思います.
3. 次に,右側のPeaksのところに上記のMS/MSスペクトル値をそのままコピー&ペーストで貼り付けてください.以上で右側のセッティングは終わりです.
4. 続いて左側のDatabaseセッティングですが,データベースとしてはPubChemを選びます(レコード数が一番多いから).そしてSearch PPMは5と入力します.Limit # of structuresはとりあえず1000にしましょう.
5. (PubChemを選択したときにこれが効いているかわからないのですが,)Only biological compoundsにチェックを入れて,Search upstream DBのボタンを押します.すると,「426 hits!」といったメッセージが表示されるはずです.(2015年4月19日現在)
6. 最後にMetFrag settingsの部分ですが,これはMS/MSのセッティングのことです.Modeは[M+H],Chageはpos.を選び,Mzabsは20 ppmくらいを想定して0.05を入れましょう.またMzppmは0を入れて下さい.コードを見ればわかるのですが,MetFragはなぜか,mass toleranceとして±(Mzabs+Mzppm)として計算するので,どちらかは0に設定しておかないとよくわからないことになります.
7.最後に,「Process all 426 compounds!」というボタンを押して,しばらくすれば解析結果が返ってきます.(スターバックスのWifi環境)
結果はこんな感じで見られます.さすがに,スクリーンショットを用いないと説明きついと思ったので,スクリーンショットを載せました.(ちゃんとStephenにスクリーンショット使って良いか聞いておきます.だめって言われたら,消します.笑)
Apigenin…17番目にありました!結果一覧は,Download complete tableからダウンロードできます.
ちなみに,データベースをPubChemからKEGGに変更すると,そもそも候補化合物は18種となり,Apigeninは3番目にランク付けされます.
基本的には,KEGGからサーチを初めて,それでもし候補化合物がなければPubChemサーチをするほうが良いと思います.上位3番目に来ていたら,標準品を打ってみる気になりますが,さすがに17番目だとしんどいですよね.
このことからもわかると思いますが,よく調べられているフェニルプロパノイド群のフラボノイド(今日はフラボンでしたが)でさえも,このようにトップヒットに来ることは難しいのが現状です.
様々な意見があると思いますが,MetFragがやろうとしていることは本当に挑戦的なテーマであり,「標準品ベースの化合物同定からの脱却なくしてメタボロミクスの今以上の発展はありえない」と思っている管理人にとって,重要な研究分野だと思っています.
次回からは,このMetFragに続く形,もしくは沿う形で発展してきた構造解析ソフトウェアを紹介していきたいと思います.MetFragに関しては,いくつか修正しないといけない致命的なバグがあるので,それを修正するだけでもう少し性能自体は上がると思いますが。。。
ちなみに,「バッチ処理」を行うためのコマンドラインツールやRパッケージが以下のサイトから利用できます.
http://c-ruttkies.github.io/MetFrag/
また,ChristophがGithubで公開しているMetFragのソースコードがこちらからダウンロードできます.
https://github.com/c-ruttkies/MetFrag
さらに,.NET用のプログラムとして,NonlinearDynamicsのSteven AndersonがC#でMetFragを少し修正した状態で公開しています.
https://github.com/NonlinearDynamics/MetFrag.NET
管理人は,この.NET版を参考にして,CDKの使い方やin silico fragmentの基本的なやり方を学びました.
それでは今日はこのへんで.