私が考えるデータ解析やデータサイエンスについて

data analysis and data science for me

今や日本からニューヨークまで旅客機で約12時間で行けたり、約1万メートルの深海まで潜水艦で行けたり、高度約400kmにある宇宙ステーションを建設し何か月にもわたって滞在出来たり、少し前には考えられないことが実現されています。しかし、科学技術が発達したそんな現代であっても、自然界や人間社会で起こる現象には、数学や物理の数式(モデル)になっていないものが多くあります。自然界や人間社会で起こる現象は、様々な要素(物や出来事など)が絡み合って起こります。そもそも何が要素なのかを知ることから難しいことですし、要素が特定できたとしても、その要素の特徴を知ることも簡単なことではありません。さらに、どの要素とどの要素が関わっているかを特定することも難しいことですが、それらの具体的な関わりあい方を知ることは、さらに難しいことです。つまり、自然界や人間社会で起こる現象は、調べようと思ってもなかなか調べられなかったり、全体的な仕組みまでが詳細かつ正確に分からなかったりするので、数学や物理の数式を作ることが出来ないのです。

少し前の時代であれば、そんな現象は興味の対象にはなっても、解析の対象にすることは難しかったでしょう。しかし、測定技術が向上したお陰で、長時間の測定と様々な要素のデータの測定が可能になり、大量のデータを手に入れることが出来るようになりました。また、多くの人が高性能なコンピュータを使うことが出来るようになり、一昔前には考えられない大量のデータをコンピュータで扱えるようになりました。こうして、大量のデータとコンピュータを使うことで、今まで調べたくても調べることが難しかった現象の解析が可能になり、これまで培った経験や知識と解析結果を活用して、様々な問題に対して現実的な対応を取ることが出来るようになりました。

私は、このように経験と知識とデータとコンピュータを活用し問題解決や問題発見に取り組むことがデータ解析だと思っていますし、それを1つの学問としたものがデータサイエンスだと思っています。科学の未解決問題や地球環境のような社会的な問題といった既に知られている問題の解決に取り組むことは重要なことです。しかし一方では、問題としてそもそも認識されていないものや、従来の数学や物理の問題として扱うには不向きなものが、自然や人間社会の中には多くあると思います。それらをデータサイエンスの土俵に上げ、しっかりとした科学の問題に仕立てていく作業は地味ですが、とても大切だと思っています。