すみません.気がつけば最後の投稿から一ヶ月が立ってしまいました.単純に忙しすぎたからです.しかし本日,やっと少し肩の荷が降りましたので,また連載を再開したいと思います.
ガスクロマトグラフィーや液体クロマトグラフィーにおいて,化合物の保持時間を予測しようというお話ですが,何よりもまず化合物プロパティを計算させるために,化合物構造ファイルすなわちSDFファイルを用意する必要があります.
一番簡単なのが,PubChemのサイトで入手することです.
たとえば,PubChemでAlanineと入力して,L-Alanineを見た時の結果が以下のリンクのようになっています.
https://pubchem.ncbi.nlm.nih.gov/compound/5950
ブラウザは度々更新されるので,毎度どこにそのボタンがあるかは断言できないのですが,2015年2月2日現在は少なくとも見た瞬間にあります.
2D StructureのDownloadボタンを押して,SDF: Saveと押せば,SDFファイルがダウンロードできます.
SDFファイルは専用ソフトウェアがないとダブルクリックでは開きませんのでご注意を!
前回コラム参照:https://sites.google.com/site/esitomonokai/jie-xi-bu-wu/hua-he-wu-biao-ji-fang-fa/sdfyamolfairutoha
こうやって,学習に使う化合物を1つ1つ手で探していくってのは,100個以下なら考えてもよいですが,500とか1000,ましてや10000を超えてくるとやってられませんので,PubChem Download Serviceからまとめてダウンロードしちゃいましょう.
https://pubchem.ncbi.nlm.nih.gov/pc_fetch/pc_fetch.cgi
ここで,
・PubChem compoundを選んで
・Choose Fileを選んで,テキストファイルにPubChem CIDを整理したものを選択して(1行に1IDずつ書く)
・フォーマットはSDF,いっぱいダウンロードする場合はZip圧縮してダウンロードしましょう.
・3Dは曖昧な部分が残るので,チェックは外しておきましょう.
最後に,上のDownloadボタンを押せば,ダウンロードが始まります.
ネットワークプログラミングの知識が多少ある方(別になくても,1日あれば使用方法はわかります)は,PUG Restサービスを使うことでもっと細かなダウンロード設定が可能です.
https://pubchem.ncbi.nlm.nih.gov/pug_rest/PUG_REST.html
SDFファイルをダウンロードできたら,次はいよいよこのSDFから化合物プロパティを計算させることになるのですが,このコラムではもう少し,SDFに関して補足しておきます.
まず,GCMSを用いてメタボロミクスをやっていて,かつ保持時間予測つまりGCの場合は「保持指標」を予測したいという方で勘が良い方は,たとえばAlanineのSDFをダウンロードしたとしても,
「MeOX:メトキシアミン,MSTFA誘導体化させたSDFでないとだめなんじゃないか?」
と思うと思います.
管理人は,はじめ,「別にどっちでも良いのでは?」と思いました.というのも,誘導体化させた状態のSDFでなくとも,保持指標予測は「誘導体化されるはずの官能基プロパティの有無が反映される」はずなので,それなりの結果が出ると直感的に思ったからです.
ただ,この場合,アミノ酸や糖類など,TMS数やMeOXのE,Z異性体による複数ピークの存在を正当に評価できなくなります.ということで,やっぱり誘導体化を反映したSDFが必要になってくるという結論になります.
さらに,このようなE体Z体の識別,TMSが付いている位置等,正確に描けないと,SDF化の時点でエラーが発生してしまい良い保持時間予測モデルを作ることができません.ChemAxonのReactorを使うことで,化合物の化学反応をコンピューター上で行わせ,誘導体化を反映したSDFを作成することが可能ですが,このような細かなキュレーションはいまのところ,「卓越したGCMSメタボロミクス従事者」が行うことでしか行うことができません.
「このピークは,Aという化合物のこの官能基にTMSがついていて,E体でMeOXが入っている」
というようかことを,物理化学性質を考えながら,データベースに登録されている1000前後のものに対して1つ1つ精査するという作業です.日本人でこの作業に割り当てられた方は,必ず将来のラボの財産ならびに自分自身の財産になりますのでがんばってください!
また,PubChemに登録されていないものはどうするの!?という質問ですが,管理人の回答は,
「SMILESを自分で書いて,OpenBabelかChemAxonのMolConverter,もしくはJava CDKを使えるならsmi2sdfを使う」
ということになると思います.もしくは,自分の手でお絵かきです.
脂質などは,ポーラヘッド,リンカー,アシルチェインのバラエティを整理してエクセルマクロかSmiLibで一括SMILES出力できます.
OpenBabel:http://openbabel.org/wiki/Main_Page
ChemAxon MolConverter:http://www.chemaxon.com/products/marvin/molconverter/
CDK SmiLib(これは敷居が高い):http://cheminformatics.seesaa.net/article/20397825.html
SmiLib:http://gecco.org.chemie.uni-frankfurt.de/smilib/
最後に生体内に存在すると考えられる化合物のSDFを綺麗に管理してくれている化合物データベースを紹介します.
HMDB:the Human Metabolome Database
ChEBI:Chemical Entities of Biological Interest
http://www.ebi.ac.uk/chebi/downloadsForward.do
PubChem biosystems and pathways
https://pubchem.ncbi.nlm.nih.gov/classification/#hid=72
YMPD:the Yeast Metabolome Database
SMPDB:the Small Molecule Pathway Database
UNPD:Universal Natural Products Database
http://pkuxxj.pku.edu.cn/UNPD/download.php
このように,データベースを管理する素晴らしい人達がいるからこそ,「できる研究」が増えてくるわけで,特に僕みたいにWetとDryの中間層にいる人間にとっては嬉しい限りです.
それでは,本日はこの辺で.