現象の振る舞いを予測・再現したり、現象が果たしている何らかの役割(機能)を表現したりするうえで、モデルは非常に有効です。ここでいうモデルとは、ある規則に従い、現象の様々な状態を数値的に表現する数式のことです。従来は、現象の基本原理に基づいたモデルが構築されてきました。しかし、その基本原理が十分に解明されていない現象に対しては、従来のようなモデルを構築することができません。
一方で、現象を観測し、そのデータを得ることは比較的容易にできます。しかし、データを観測することができるとしても、その現象に関わっている要素が複数あったとしても、それら全てを観測できるとは限りません。観測できるデータが、現象そのもののデータだけのときもあります。得られる情報が不完全で不十分なこのような困難な状況においても、データを用いて統計的なモデルを構築することができます。良い統計モデルとは元のデータの特徴を十分に持つモデルであり、そのようなモデルは元のデータと似た振る舞いを再現することができます。
しかし、構築した統計モデルが常に良いモデルであるとは限りません。その場合には、モデルの構造や仮定、用いる変数などを見直しながら、試行錯誤を繰り返してモデリングを行う必要があります。そして、その過程で得られた統計モデルが元のデータと似た振る舞いを再現できたならば、そのモデルは現象にとって重要かつ必要な情報を含んでいると考えられます。また、この試行錯誤の過程を通して、現象に対して本質的ではない要素や、逆に重要な役割を果たしている要素を明らかにすることもできます。
定理や法則によって現象を解き明かすことは、誰もが認める科学における基本的かつ重要な方法です。しかし、現実の現象には多様な要素が複雑に絡み合っているため、因果関係を大まかに説明できたとしても、その現象を理解するために必要な具体的な対処法を提示できない場合が少なくありません。 これに対して、統計モデルは現実的かつ実践的な方法であり、元データと似た振る舞いを再現できる統計モデルに矛盾や問題が見られない限り、実用的なモデルとして扱うことができると考えられます。
オリジナルデータと、そのデータのみを用いて統計モデルを構築し、その統計モデルから生成されたシミュレーションデータ