データサイエンス

 データサイエンスという用語は、近年非常によく使われていますが、その内容が何を指すかは状況によって異なっているようで、非常に定義するのが難しい言葉になっています。「ビッグデータ技術により大量のデータを処理して、AIによりデータを分析して特徴を抽出する技術」ぐらいの定義が無難でしょうか。分散処理を用いた大量データの解析は、1970年代から行われていましたが、1990年代にインターネットとパソコンが普及し、コモデティ品の価格が下落、一般のパソコン部品を使ってクラスタマシンを構成する試みが拡がりました。

2000年ごろから、GoogleやAmazonといったクラウド事業者がインターネットの黎明期に急速に成長し、同時に、Hadoop(MapReduce)といった、分散処理と大量データ処理を簡単に行えるフレームワークが普及したことで、誰でもクラウド上で大規模なビッグデータ解析を行う事が可能になりました。

それにより、GAFAが成長したのはもちろんですが、NexFlixやUVer,YouTube、twitterなど、多くの企業がビッグデータ技術を用いて成長しました。残念ながら、この時期から本邦においては、クラウド事業者やBIGDATA解析を事業に活用するような企業があまり現れず、産業の停滞を招いてしまうという事態を招いています。

また、2012年には、カナダのジェフリー・ヒントンらのチームが、従来のニューラルネットの学習の問題を克服した、ディープラーニングを採用して画像認識で目覚ましい成果をあげました。その後、GAFA、Baiduといった巨大企業が一気にディープラーニングへと巨額をつぎ込み、AIの分野が大きく進展しました。

 今日、産業界でデータサイエンスは非常に普及して、クラウド上で標準的なAPIを用いてBIGDATA解析を行い、さらにその結果をAIで解析するというのは、かなり一般化なルーティンになっています。学術界は、もともと産業界より先行してコンピュータを使ってきた分野ではありますが、一般的なデータサイエンスの標準技術を使うという観点では、今日むしろ遅れている印象を受けます。特に、日本では、産業界と学術界の人的な交流が少ないということと、産業界でもデータサイエンスの技術が活用している企業が少ないことから、もともとデータサイエンスの技術に精通したエンジニアが少ないという問題があり、今後の人材教育を含めて、多くの取り組みが必要なのではないかと考えられます。