OSRA

光学的構造認識アプリケーション

紙面,PDF等に描かれた化学構造は単なる模様であり,化学構造式描画ツール(ChemDrawやMarvinSketch等)で作成されたファイルが有している化学的情報は持っていない.したがって,Avogadroのようなソフトで読み取り三次元表示することはできない.その模様を光学的に読み取り,化学情報を抽出,再生しようというソフトが存在する.OSRA(Optical Structure Recognition Application, 光学的構造認識アプリケーション)というオープンソースである.

https://jglobal.jst.go.jp/detail?JGLOBAL_ID=200902274481838015

手元にあったTHCH(Tetrahydrocannabihexol/テトラヒドロカンナビヘキソール)の画像データ(png)で,その実力を試してみた.専用ソフトをダウンロードすることなく,OSRA Web インターフェイスを利用した.

THCHのPNGデータ

PNGファイルを読み込むと,左側に入力画像,右側に変換された画像が表示される.変換画像に問題がなければ,SDFファイルとして保存し,Avogadroで読込み3次元表示させてみたのが右下図である.力場計算でエネルギー最小化を試みたが,ほとんど修正されることはなかった.mol, xyz, pdb等のファイルとして保存すれば,容易に三次元座標が得られる.

トランスデカリンが問題なく抽出できた.シスデカリンも同様に抽出できた.

コレステロールを認識させてみたが,環縮合部位のメチル基や水素原子の配座に問題があった.描き方の異なる画像で試してみたが,いずれも修正が必要であった.水酸基に対するメチル基や水素原子の相対的配座の修正は,Avogadroに読み込んだ後に実行した方が楽である.

Avogadroでの水酸基や核間メチルの配座の修正は水素を取り除き,炭素骨格だけで行うとわかりやすい.以下はChemPubに掲載されている図をOSRA処理し,そのsdfファイルをAvogadroで三次元構造化したものである.アルキル鎖がC環を通過した特異な構造に変換された.

ChemPubの原図

OSRA抽出画像

修正加工,sdfファイル出力

Avogadro読込表示

水素原子非表示

C19メチル配置修正 -MM処理

追加-核間水素配置修正-MM処理

MM最適化構造

Diels-Alder付加体

ウエブ上に存在するcyclopentadieneと無水マレイン酸とのexo付加体を認識させ,その結果をsdfファイル出力してAvogadroで読み込むとexoからはemdo,,endoからはexpの逆の結果が得られた.三段目のように変更すれば,意図する結果が得られた.

多環芳香族炭化水素(コロネン)

カゴ型化合物(Cubane)手前の結合が奥の結合と交差しているので,結合とみなすので,工夫が必要である.サイコロ状のキュバン(水素のない)は,最新版では化学構造ではないと解析を拒否される.水素を付けた場合も完全ではない.

参考資料

OSRAOptical Structure Recognition Application, 光学的構造認識アプリケーション)というオープンソース,URL https://jglobal.jst.go.jp/detail?JGLOBAL_ID=200902274481838015

OSRA Web インターフェイス  専用ソフトをダウンロードすることなくオンラインで利用可能