OSRA
Optical Structure Recognition Application
光学的構造認識アプリケーション
Optical Structure Recognition Application
光学的構造認識アプリケーション
論文、特許、教科書などに描かれた化学構造は単なる模様であり、化学構造式描画ツール(ChemDrawやMarvinSketch等)で作成されたファイルが有している構造情報とは異なるものである。したがって、Avogadroのようなソフトで読み取り三次元表示することはできない。その模様を光学的に読み取り、化学構造式を自動的に抽出し、コンピュータが認識できる形式(SMILESやSDFなど)に変換するOSRA(Optical Structure Recognition Application, 光学的構造認識アプリケーション)というオープンソースが存在する。
手元にあったTHCH(Tetrahydrocannabihexol/テトラヒドロカンナビヘキソール)の画像データ(png)を用いて、その実力を試してみた。専用ソフトをインストールすることなく論文、特許、教科書などから論文、特許、教科書などからブラウザ上で実行できるOSRA Web インターフェイスを利用した。
THCHのPNGデータ
PNGファイルを読み込むと、左側に入力画像、右側に変換された画像が表示される。変換画像に問題がなければ、SDFファイルとして保存し、Avogadroで読込み3次元表示させてみたのが右下図である。力場計算でエネルギー最小化を試みたが、ほとんど修正されることはなかった。mol, xyz, pdb等のファイルとして保存すれば、容易に三次元座標が得られる。
トランスデカリンが問題なく抽出できた。シスデカリンも同様に抽出できた。
コレステロールを認識させてみたが、環縮合部位のメチル基や水素原子の配座に問題があった。描き方の異なる画像で試してみたが、いずれも修正が必要であった。水酸基に対するメチル基や水素原子の相対的配座の修正は、Avogadroに読み込んだ後に実行した方が楽である。
Avogadroでの水酸基や核間メチルの配座の修正は水素を取り除き、炭素骨格だけで行うとわかりやすい。以下はChemPubに掲載されている図をOSRA処理し、そのsdfファイルをAvogadroで三次元構造化したものである。アルキル鎖がC環を通過した特異な構造に変換された。
ChemPubの原図
OSRA抽出画像
修正加工,sdfファイル出力
Avogadro読込表示
水素原子非表示
C19メチル配置修正 -MM処理
追加-核間水素配置修正-MM処理
MM最適化構造
Diels-Alder付加体
ウエブ上に存在するcyclopentadieneと無水マレイン酸とのexo付加体を認識させ、その結果をsdfファイル出力してAvogadroで読み込むとexoからはendo、endoからはexoの逆の結果が得られた。三段目のように変更すれば、意図する結果が得られた。
多環芳香族炭化水素(コロネン)
カゴ型化合物(Cubane)手前の結合が奥の結合と交差しているので、結合とみなすので、工夫が必要である。サイコロ状のキュバン(水素のない)は、最新版では化学構造ではないと解析を拒否される。水素を付けた場合も完全ではない。
参考資料
OSRA: Optical Structure Recognition Application, 光学的構造認識アプリケーション(オープンソース)
OSRA Web インターフェイス 専用ソフトをダウンロードすることなくオンラインで利用可能
OSRAに関する論文
(2025.10.30)