2. SMILESとメタボロミクス
SMILES記法は,
1.化合物を一次元(ここでは,ほとんど「一行で」という意味)で表せる.
2.情報管理が容易(コンパクトという意味で)
3.同じ一次元表記のInChIKeyと違い,構造が想像しやすい.
という特徴があります.
ここのブログが取っ付き易いと思います.
http://d.hatena.ne.jp/sabuP/20080308
前回の復習で,AlanineはInChI, InChIKeyで表すと,それぞれ
InChI: InChI=1S/C3H7NO2/c1-2(4)3(5)6/h2H,4H2,1H3,(H,5,6)/t2-/m0/s1
InChIKey: QNAYBMKLOCPYGJ-REOHCLBHSA-N
と表記されます.一方で,SMILESでは,
SMILES: CC(C(=O)O)N
と表記されます.SMILESでとりあえずこれだけは覚えておいたほうが良いということは,
1.Hは基本書かない
2.分岐は()で表す
3.E体Z体はそれぞれ,\と/で表す
4.環の表記方法が数値
5.L, R表記が@の数で表される
6.ドット(.)が部品を表す側面を持っていて,R%10.とR’%10を準備し, R%10. R’%10でR-R’の結合が定義できる
ことを覚えておけばある程度書けると思います.
SMILESの欠点は,「1つの構造を複数の表記方法で書けてしまう」ということにあると思います.
つまり,どの原子を起点として書くかで,色々書き方が考えられる.また,SMILESの中でも
・generic SMILES: 原子と結合のみを記述
・isomeric SMILES: 同位体や不斉中心についての記述を含む
・canonical SMILES:generic SMILESをある定義に従って一義的に作成したもの言う
などがあります.上のAlanineで示したのはcanonical SMILESです.上記で示した「複数の表記方法で書けてしまう」という弱点を,正規化するためのコンバーターが存在し,それを使って作られるのがcanonical SMILESなわけで,世の中に出回るSMILES表記がすべて正規化され,データベース作成者自身も,canonical SMILESを常に採用するということになってくれば,SMILESの弱点は少なくなってくるのかもしれません.
SMILESは,「コンピューターに読み込ませるには不安定」であるといわれるのも,この表記ゆれが所以だと管理人は思っています.(実際はどうか知りません.)ただ,molecular descriptorで化合物プロパティを計算させるときは必ずSDFに変換してから行うようにしています.
SMILESは,極性脂質のような「ポーラヘッド」「リンカー」「側鎖」の3つの部品で構築されるものを,「考えられる組み合わせの脂質構造」を一気に書くためにすごく便利です.
たとえば,ホスファチジルコリンは
・ポーラヘッド:ホスホコリン
・リンカー:グリセロール
・側鎖:脂肪酸
ですが,SMILESに直すと,ポーラヘッドとリンカー合わせて,
[H]C%10(C%11)COP([O-])(=O)OCC[N+](C)(C)C.
のように書くことができ,この%10と%11の部分に,考えられる側鎖をすべてつないでいけば良いわけで,たとえばPC(16:0/18:1)は,
[H]C%10(C%11)COP([O-])(=O)OCC[N+](C)(C)C. CCCCCCCCCCCCCCCC(=O)O%10CCCCCC\C=C/CCCCCCCCCC(=O)O%11
と書けるわけで(二重結合のEとZは適当にいま書きました),
たとえば脂肪酸側鎖C4からC26まで,および二重結合を最大7つ(過去に報告されている範囲で可能と考えられる構造)まで考えるとしたら,
(とりあえず%11としましたが,実際には%10も作る)
と先に作っておいて,あとはポーラヘッド・リンカーの表記と合わせて全通りの組み合わせを一気に出力するプログラムをマクロで書いておけばすぐにできます.
マクロや,他のプログラムが書けないような方でも,SMILIBというプログラムを使えば上記のことは勝手にソフトがやってくれます.
SmiLib
http://gecco.org.chemie.uni-frankfurt.de/smilib/
あとは,この完成されたSMILES表記すべてを,なんらかのコンバーターでSDF化し,そこから化合物プロパティを計算させれば,「化合物プロパティから保持時間予測」などといったことは簡単にできそうですね.
そして,このSMILESの作り方で脂質を全部コンピューターで合成し,考えられるフラグメントをひと通り揃えたのがLipidBlastデータベースですよね.
このようにSMILESは,完全にハッシュ(検索機能)に特化したInChIKeyと,構造情報をコンピューターに明確に認識させることができるSDFのちょうど中間的な側面を持つものだと言えます.
次回は,SDFを見て行きたいと思います.