今回は,AMDISやNIST-MS search,その他のサードパーティのソフトウェアで「化合物同定」を行うために必要な化合物ライブラリーの形式を紹介したいと思います.
そもそも世の中に,マススペクトルの記述形式ってどのようなものがあるのでしょうか?僕が知る範囲では,有名どころはNIST形式(MSP),Mascot形式(MGF),そしてMassBank形式(TXT)の3つかと思います.
この中でも,もっともメタボロミクス用ソフトウェアのライブラリー形式として使われているのが,NIST形式だと思います.当然,MGFはMascot searchはさることながら,Proteowizardでもサポートされているプロテオーム業界の鉄板形式です.MassBank形式をサポートしているソフトウェアはあまり見かけないですが,スペクトル取得時のメタデータ(分析条件等)や付属情報が圧倒的に整理されていて,可読性に(メタデータのフィールドがしっかり定義されているという意味で)優れていると言えます.
以下,具体例
MassBank形式
ACCESSION: PR010002
RECORD_TITLE: 1,3-Dihydroxyacetone dimer; GC-EI-TOF; MS; 2 TMS; BP:73
DATE: 2011.05.06 (Created 2006.12.21)
AUTHORS: Kusano M, Fukushima A, Plant Science Center, RIKEN.
LICENSE: CC BY-SA
CH$NAME: 1,3-Dihydroxyacetone dimer
CH$COMPOUND_CLASS: Natural Product
CH$FORMULA: C6H12O6
CH$EXACT_MASS: 180.06339
CH$SMILES: OCC(O)(C1)OCC(O)(CO)O1
CH$IUPAC: InChI=1S/C6H12O6/c7-1-5(9)3-12-6(10,2-8)4-11-5/h7-10H,1-4H2
CH$LINK: CAS 62147-49-3
CH$LINK: NIKKAJI J208.317E
AC$INSTRUMENT: Pegasus III TOF-MS system, Leco; GC 6890, Agilent Technologies
AC$INSTRUMENT_TYPE: GC-EI-TOF
AC$MASS_SPECTROMETRY: MS_TYPE MS
AC$MASS_SPECTROMETRY: ION_MODE POSITIVE
AC$CHROMATOGRAPHY: RETENTION_INDEX 1243.3
AC$CHROMATOGRAPHY: RETENTION_TIME 297.3 sec
MS$FOCUSED_ION: BASE_PEAK 73
MS$FOCUSED_ION: DERIVATIVE_FORM C12H28O6Si2
MS$FOCUSED_ION: DERIVATIVE_MASS 324.14244
MS$FOCUSED_ION: DERIVATIVE_TYPE 2 TMS
MS$DATA_PROCESSING: WHOLE ChromaTOF ver. 2.32 (Leco)
PK$NUM_PEAK: 98
PK$PEAK: m/z int. rel.int.
60 15 15
61 15 15
62 1 1
66 7 7
67 1 1
68 1 1
69 1 1
(中略)
249 6 6
250 2 2
263 9 9
264 1 1
//
MassBank形式はこのように,どのような条件で分析したかがしっかりメタデータとして定義されていて,再利用価値がすごく高いですよね.(ユーザーとしては,この条件を完全に模倣すればこのライブラリーがそのまま使える(当然保持指標を使うとして)という意味で.)それにしてもさすが草野さんたち,誘導体化時の組成も明記して登録しているなんて素晴らしいです.あと,大阪大学のスペクトル登録データを今見たら,僕こんなの付属情報として送ってないよ!?と本当にびっくりするくらい化合物IDとか組成式とかを付与していただいていて,西岡先生のグループには頭が上がりません...2011年当時,僕は修士学生だったので(完全言い訳),大目に見てあげてください…
続いて,NIST形式
NAME: 1,3-Diaminopropane; GC-EI-TOF; MS; n TMS; RT:620.432 sec
INSTRUMENTTYPE: GC-EI-TOF
INSTRUMENT: Pegasus III TOF-MS system, Leco; GC 6890, Agilent Technologies
Authors: Tsujimoto Y, Tsugawa H, Bamba T, Fukusaki E, engineering department, Osaka Univ.
License: CC BY-SA
FORMULA: C3H10N2
IONMODE: P
RT: 10.341
RI: 1641.217
SearchID: MassBank: OUF00001; KEGG: C00986; CAS: CAS 109-76-2; ChemSpider: 415; PubChem CID: ; PubChem SID:
Num Peaks: 73
85 25
86 645
87 69
88 42
(中略)
404 1
ちょっと,僕が勝手に作っているフィールドもあるのでややこしいんですが,NIST形式で明確に定義されているルールおよびフィールドは,一番上の行はかならず「Name:」で,スペクトルデータの一つ上の行に必ず「Num Peaks: スペクトルの数」を記載しなければならない,ということだけではないでしょうか.他にも,一応NIST MS searchで認識してくれるフィールドComment, Formula, MW, CAS等がありますが,後のフィールドは読み込めないけど自分で勝手につけていいよってスタンスなので,読み込ませてソフトウェア上で見たいメタ情報はすべてCommentに書くしかないという(1023文字までOKらしい)…そしてもっともパーサー(Parser: 構文解析,ここでいうとスペクトルデータを読むということ)を書く側としてもっともつらいのは,m/zとintensityのペアを記載する区切り文字(delimiter)がなんでも良い(つまり,括弧でも,スペースでも,カンマでも)というところ…揚句,スペクトル1つ1つにコメントまでつけて良い(その場合,一行一ペアしか受け付けない)なんて…自由度が高すぎるのも困ったものですが本当によく使われている形式なので,対応するしかないですよね!
細かなフォーマット情報は,NISTの以下から.
http://www.nist.gov/srd/upload/NIST1a11Ver2-0Man.pdf
ちなみにここでは書かれていないのですが,NIST MS Searchにおいて「Precursor」というフィールドを用意していると,それはMS/MS searchを行うためのライブラリーとして自動的に認識されてしまいます.僕はGCMSのライブラリーをMSPで用意したとき,最初Precursorのフィールドは作っておきながら値としては空欄にしてあったのですが,これをNIST MS Searchは正常に読み込んでくれず,しかもどこでエラーが出ているかがわからなかったのでかなりはまりました…
Mascot形式はわざわざここで具体的に紹介しませんので,ページ紹介だけ↓
http://www.matrixscience.com/help/data_file_help.html
はい,ここまではスペクトルの記述形式について見てきたわけですが,メタボロミクスでは何にせよ,NIST形式を一番よく使います.そして,GCMSでは装置間,ラボ間のライブラリー互換性が非常に高いので,たとえばMassBankに登録されているスペクトルデータを採った期間の分析条件を完全に模倣すれば,そのライブラリーが自分のものとして使えて,わざわざ標準品を自分たちで分析してin house libraryを作らずともメタボロミクスができる!という点に,やはりGCMSのメリットがあるのではないでしょうか.ただ,いくらMassBankに登録されているからといって,NIST形式に変換というのは,エンドユーザーにとっては非常に酷な作業ですよね.(学生のみなさんはちなみに,これからメタボロミクス研究をやっていこうという方は,簡単なテキストマイニングのためのプログラミングは書けたほうが絶対強いですよ.)
てことで,僕のほうで,大阪大学,理研,かずさで,MassBankに登録されているCC BY-SAライセンスのものをNIST形式に変換したものを下記に置いておくので,よければどうぞ↓
理研CSRS
https://dl.dropboxusercontent.com/u/12061578/MassBank_GCMS_RIKEN.msp
大阪大学
https://dl.dropboxusercontent.com/u/12061578/MassBank_GCMS_OsakaUniv.msp
かずさDNA研究所
https://dl.dropboxusercontent.com/u/12061578/MassBank_GCMS_Kazusa.msp
今回のコラムでは,これを使ってAMDISでの化合物同定方法の紹介をしようと思いましたが,それはまた次のコラムで紹介します.
それでは今日はこの辺で!