OSRA
光学的構造認識アプリケーション
紙面,PDF等に描かれた化学構造は単なる模様であり,化学構造式描画ツール(ChemDrawやMarvinSketch等)で作成されたファイルが有している化学的情報は持っていない.したがって,Avogadroのようなソフトで読み取り三次元表示することはできない.その模様を光学的に読み取り,化学情報を抽出,再生しようというソフトが存在する.OSRA(Optical Structure Recognition Application, 光学的構造認識アプリケーション)というオープンソースである.
https://jglobal.jst.go.jp/detail?JGLOBAL_ID=200902274481838015
手元にあったTHCH(Tetrahydrocannabihexol/テトラヒドロカンナビヘキソール)の画像データ(png)で,その実力を試してみた.専用ソフトをダウンロードすることなく,OSRA Web インターフェイスを利用した.
THCHのPNGデータ
PNGファイルを読み込むと,左側に入力画像,右側に変換された画像が表示される.変換画像に問題がなければ,SDFファイルとして保存し,Avogadroで読込み3次元表示させてみたのが右下図である.力場計算でエネルギー最小化を試みたが,ほとんど修正されることはなかった.mol, xyz, pdb等のファイルとして保存すれば,容易に三次元座標が得られる.
トランスデカリンが問題なく抽出できた.シスデカリンも同様に抽出できた.
コレステロールを認識させてみたが,環縮合部位のメチル基や水素原子の配座に問題があった.描き方の異なる画像で試してみたが,いずれも修正が必要であった.水酸基に対するメチル基や水素原子の相対的配座の修正は,Avogadroに読み込んだ後に実行した方が楽である.
Avogadroでの水酸基や核間メチルの配座の修正は水素を取り除き,炭素骨格だけで行うとわかりやすい.以下はChemPubに掲載されている図をOSRA処理し,そのsdfファイルをAvogadroで三次元構造化したものである.アルキル鎖がC環を通過した特異な構造に変換された.
ChemPubの原図
OSRA抽出画像
修正加工,sdfファイル出力
Avogadro読込表示
水素原子非表示
C19メチル配置修正 -MM処理
追加-核間水素配置修正-MM処理
MM最適化構造
Diels-Alder付加体
ウエブ上に存在するcyclopentadieneと無水マレイン酸とのexo付加体を認識させ,その結果をsdfファイル出力してAvogadroで読み込むとexoからはemdo,,endoからはexpの逆の結果が得られた.三段目のように変更すれば,意図する結果が得られた.
多環芳香族炭化水素(コロネン)
カゴ型化合物(Cubane)手前の結合が奥の結合と交差しているので,結合とみなすので,工夫が必要である.サイコロ状のキュバン(水素のない)は,最新版では化学構造ではないと解析を拒否される.水素を付けた場合も完全ではない.
参考資料
OSRA(Optical Structure Recognition Application, 光学的構造認識アプリケーション)というオープンソース,URL https://jglobal.jst.go.jp/detail?JGLOBAL_ID=200902274481838015
OSRA Web インターフェイス 専用ソフトをダウンロードすることなくオンラインで利用可能