SMILES記法

分子を文字で記述する

分子計算ソフトのAvogadroで分子を構築する際に,SMILESからインプットするという方法がある.使ったことがないので,早速調べてみた.Wikipediaによると,SMILES記法(Simplified molecular input line entry system)は,1980年代にDavid Weiningerにより開発された分子構造を英数字で文字列化して表記する方法である.その後多数の変更,拡張がなされて今日に至っている.


テストデータ(桂皮酸)

PubChem Sketcherをクリックすると次図のようなエディターが現れる.桂皮酸の構造を描いってみた.ベンゼンを選択して,右側の空白をクリックすると六員環が描かれる.後は適宜二重結合,単結合を選びながら延長し,炭素以外の原子については酸素,水素を選びクリックすれば置換される.ステップ毎に上部に文字列が追加される.桂皮酸は"C1=CC=CC=C1C=CC(=O)OC"の文字列で表記される.

C1=CC=CC=C1C=CC(=O)OC

分子計算ソフト Avogadroのビルドの挿入からSMILESを選択,上の文字列を読み込ませると下図(左)が得られる.これを簡易力場でエネルギー最小化すると下図(右)の構造が得られる.この化合物では二重結合はトランス配置になっている.



ジチオ炭酸エステル

同様に桂皮アルコールのキサンテートを描いてみた.桂皮酸と同様に描いたが,今回は二重結合がシス配置になった.


C1=CC=CC=C1C=CCOC(=S)SC

二重結合のシス配置をトランス配置に変更するために,手マークの移動操作で水素原子をトランスになるように移動させ,エネルギー最小化すると希望の構造が得られた.

ビタミンB1


→ OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2




最適化構造は下図の通りである.ヘテロ環もちゃんと評価できる.

立体的な分子

C12CCC(CC1)C2

次図のような作図では,エキソとして描いたくさび型結合は評価されない.



C12C[C@H](C(C=C1)C2)O[H]

次図のように描けば,意図した相対的位置関係が正常に反映される.



[C@H]12C[C@H](C(C=C1)C2)O[H]

大きな分子の場合

コレステロールを文字列化し,立体モデルに変換してみたが,縮環部位水素の配置ミスが複数あった.

C4[C@]1(C(=CC[C@@H]2[C@@H]1CC[C@]3([C@H]2CC[C@@H]3[C@H](CCCC(C)C)C)C)CC(C4)O[H])C

問題部位をマニュアル修正した後,MMで構造最適化した構造

SMILES文字列から構造式の再現

メニューを SMILES から FORMULA に変え,その右欄(empty structure)にコピー保存した構造文字列をペーストしてリターンキーを押すと構造式が再現する.

PubChem Sketcherはソフトをダウンロードするのではなく,ブラウザ上で操作できるが,馴れる必要がある.マニュアルを見ずに試行錯誤してどうにかマスターすることができた.SMILESが誕生したきっかけは,システムに負担をかけないことであったと思われるが,最近の通信媒体の大容量化は,大きな分子のモデリングでさえ画面を見ながら編集することを可能にしてしまった.そのため,節約志向のSMILESの存在価値は次第に薄れる方向に向かっているのは確実であるが,このようなことを思いつき実現した先人達に拍手を送りたい.