基盤のリソースとして、mdx を活用します。
mdx の利用方法については、mdxのホームページの他
動画でも公開されている。
https://www.youtube.com/@mdx7193
大規模データ解析
Dask, Sparkなどの
BigDataフレームワークを活用します
Kubernetesを用いたコンテナ管理を行います
AWS S3互換のオブジェクトストレージを利用しますAI、機械学習
TensorFlow, PyTorch, Scikit-learn, scipyなどの深層学習・機械学習フレームワークを活用しますBIGDATA解析
大規模なデータセットを処理するしくみです。ビッグデータ解析では、分散処理フレームワーク(HadoopやSpark)など使用して、膨大な量のデータを集計、分析します。BIGDATA
分散処理は従来から行われていましたが、大量データ処理を行う際に、ファイルIOも含めて最適化したり、データの統合や障害復旧など多くの手間がかかるという問題がありました。Googleが提案したMapReduceにより、並列分散処理を簡単に記述でき、また、大量データを最適に分割することができたので、急速に普及し、多くの業界で使われるようになりました。MapReduceのモデルは、さらに効率を高めたモデルへと進化し、Spark, Dask といったオープンソースプロジェクトとして利用することができます。
noSQL
Spark, Daskといったフレームワークは、利用するのにプログラミングの知識が必要な為、noSQLと呼ばれる、SQL likeなクエリでデータを集計することのできる仕組みも普及しています。
カラム型データ構造
大規模なデータを扱う際には、どのようなデータフォーマットでデータを格納するかというのが重要な問題になります。BIGDATA解析では近年カラム型のデータ構造で、縦横両方向にIndexをつけて、分散クエリエンジンから高速にアクセスする手法などが活用されています。