2016年2月に ケンブリッジ構造データベース(CSD,Cambridge Structural Database)について以下の内容のブログを書いた.
1965年にケンブリッジ大学のグループによって始められた世界規模の結晶線解析データ収集作業は50年を迎えた.
2015年,80万個を超えたとのことである.
ケンブリッジ結晶構造データベース(CSD)は,ケンブリッジ結晶学データセンター(CCDC)が構築している有機化合物, 有機金属化合物の結晶構造データベースである.検索ソフトウエアを含めて CSDSと呼ばれている.CSDの配布等のサービスについては,会社等営利機関は化学情報協会,大学等アカデミック利用者は大阪大学蛋白質研究所が窓口になっている.
毎年平均4万個の化合物が登録され,平均原子数も80を超えた.医薬品の場合,かなりの数の化合物(複合体等を含む)が解析され,構造活性相関や固体物性研究等に役たっている.
2019年2月23日, 以下のCCDCニュースメールが飛び込んできた.登録数が100万件に近くなり,, カウントダウンに入ったとのことである.
2019年 - 構造化学のマイルストーン. 私たちはCSD 100万に近づいています!
2019年は、 ケンブリッジ構造データベース(CSD)に登録された100万の有機および有機金属構造に到達する準備をしている如く, 構造化学の世界にとって重要な年です..
CCDCのホームページにアクセスしてみると, 2019年1月までの登録状況は以下のとおりである. 現在の登録数は984003件, 100万件まで残り15,997件, 100万件到達は今年の7月頃になるだろうと予測している.
1972年以来のCSDの増加, 赤いバーは毎年追加された件数を示す.
私が単結晶X線解析を始めたのは, 九州大学薬学部に四軸回折計が設置された1972年頃からであり, X線解析構造を含む論文を初めて投稿したのは1978年である. 当時は, 現在のようにインターネットを利用してデータベースを検索したり, ダウンロードする方式は存在せず, 収集データは書籍として出版されていた. 因みに, 1978年の年間登録数は 3,416件, 1972ー1978のエントリー数は25,309件であった. 最近では年に50,000件を超える勢いで増加している. 解析手法が重原子法から直接法に変わり, さらに反射データの測定の高速化, 解析プログラムシステムが使いやすいグラフィカルユーザーインターフェース化したのが登録増加の要因と考えることができる.
100万の構造を共有することへの旅は、1950年代とJ.D.Bernalにさかのぼることができる. Olga Kennardは、結晶充填に対する分子形状の影響を調べることをBernalの支持を得て決定した。 1965年に、小さなチームに現在知られているケンブリッジ構造データベース構築のために助成金が与えられた.
最初、データは本の形で発表された. 1970年にMolecular Structures and Dimensionsシリーズの最初の巻をまとめるのに5年を要した. 本による出版は1980年代初頭まで続き、その後は近代的なデータベース方式に移行した。 もしCSDが今日も本の形でリリースされているとすれば、それは450以上のボリュームからなる.
等が表題の英文に記載されている.
1965年にケンブリッジ大学のグループによって始められた世界規模の結晶線解析データ収集作業は半世紀を超えた. 現在は大学から独立した非営利団体であるが, 成長過程で国の資金援助を受けることによってシステムの改善, 解析ソフトウエアの開発等も可能になった. 半世紀間に収集した100万件に達する化合物の座標データは, 化学, 薬学, 農学の分野だけではなく, 製薬企業等においても不可欠の研究資源になっている. イギリスはEU離脱で揺れ動いているが, これまで研究者向けにはCSDは無料で公開されている. その方針が変わらないことを切に願っている.
The Cambridge Structural Database (CSD) まとめ - Qiita
CSD-System ケンブリッジ結晶構造データベース - 化学情報協会
結晶構造データベースと結晶学共通データ・フォーマットCIF について 2 (Journal of Surface Analysis Vol.21, No. 2 (2014) p. 71-81 ).
(2019.2.24)
追記
CCDCのAccess Structureから検索開始(例 Compound nameにcubaneを入力)
一般には,化合物名, 掲載論文名, 著者名等で検索するが, 慣用名だけで検索可能な場合もある.
以下は cubane の検索例
cubaneで検索すると, 200個以上のキュバン誘導体がヒットする. 検索結果一覧から無置換(2個)の化合物の一つを選択する.
検索結果は省略.
CUBANEの場合は, Database IdentifierはCUBANE, Deposition Numberは1132082である.
CIFデータに記録されている内容 (1132082.CIF)
#######################################################################
#
# This file contains crystal structure data downloaded from the
# Cambridge Structural Database (CSD) hosted by the Cambridge
# Crystallographic Data Centre (CCDC).
#
# Full information about CCDC data access policies and citation
# guidelines are available at http://www.ccdc.cam.ac.uk/access/V1
#
# Audit and citation data items may have been added by the CCDC.
# Please retain this information to preserve the provenance of
# this file and to allow appropriate attribution of the data.
#
#######################################################################
data_CUBANE
#This CIF has been generated from an entry in the Cambridge Structural Database
_database_code_depnum_ccdc_archive 'CCDC 1132082'
_database_code_CSD CUBANE
loop_
_citation_id
_citation_doi
_citation_year
1 10.1021/ja01072a069 1964
_audit_creation_method 'Created from the CSD'
_audit_update_record
;
2019-02-26 downloaded from the CCDC.
;
_database_code_NBS 507949
_chemical_formula_moiety 'C8 H8'
_chemical_name_systematic Cubane
_chemical_absolute_configuration unk
_diffrn_ambient_temperature 295
_exptl_crystal_density_diffrn 1.288
#These two values have been output from a single CSD field.
_refine_ls_R_factor_gt 0.07
_refine_ls_wR_factor_gt 0.07
_diffrn_radiation_probe x-ray
_symmetry_cell_setting rhombohedral
_symmetry_space_group_name_H-M 'R -3'
_symmetry_Int_Tables_number 148
_space_group_name_Hall '-P 3*'
loop_
_symmetry_equiv_pos_site_id
_symmetry_equiv_pos_as_xyz
1 x,y,z
2 z,x,y
3 y,z,x
4 -x,-y,-z
5 -z,-x,-y
6 -y,-z,-x
_cell_length_a 5.340
_cell_length_b 5.340
_cell_length_c 5.340
_cell_angle_alpha 72.25
_cell_angle_beta 72.25
_cell_angle_gamma 72.25
_cell_volume 134.298
_cell_formula_units_Z 1
loop_
_atom_site_label
_atom_site_type_symbol
_atom_site_fract_x
_atom_site_fract_y
_atom_site_fract_z
C1 C -0.18711 0.19519 0.10706
C2 C 0.11546 0.11546 0.11546
H1 H -0.32460 0.34680 0.18480
H2 H 0.21000 0.21000 0.21000
C1D C -0.10706 0.18711 -0.19519
C1E C -0.19519 -0.10706 0.18711
C1A C 0.10706 -0.18711 0.19519
C1B C 0.19519 0.10706 -0.18711
C2C C -0.11546 -0.11546 -0.11546
H1D H -0.18480 0.32460 -0.34680
H1E H -0.34680 -0.18480 0.32460
C1C C 0.18711 -0.19519 -0.10706
H1A H 0.18480 -0.32460 0.34680
H1B H 0.34680 0.18480 -0.32460
H2C H -0.21000 -0.21000 -0.21000
H1C H 0.32460 -0.34680 -0.18480
#END