先端研CDDI - 技術情報

基盤のリソースとして、mdx を活用します。

mdx の利用方法については、mdxのホームページの他

動画でも公開されている。

https://www.youtube.com/@mdx7193

大規模データ解析

Dask, Sparkなどの

BigDataフレームワークを活用します

Kubernetesを用いたコンテナ管理を行います

AWS S3互換のオブジェクトストレージを利用します
AI、機械学習

TensorFlow, PyTorch, Scikit-learn, scipyなどの深層学習・機械学習フレームワークを活用します
BIGDATA解析

大規模なデータセットを処理するしくみです。ビッグデータ解析では、分散処理フレームワーク（HadoopやSpark）など使用して、膨大な量のデータを集計、分析します。
- BIGDATA
  1. 分散処理は従来から行われていましたが、大量データ処理を行う際に、ファイルIOも含めて最適化したり、データの統合や障害復旧など多くの手間がかかるという問題がありました。Googleが提案したMapReduceにより、並列分散処理を簡単に記述でき、また、大量データを最適に分割することができたので、急速に普及し、多くの業界で使われるようになりました。MapReduceのモデルは、さらに効率を高めたモデルへと進化し、Spark, Dask といったオープンソースプロジェクトとして利用することができます。
- noSQL
  1. Spark, Daskといったフレームワークは、利用するのにプログラミングの知識が必要な為、noSQLと呼ばれる、SQL likeなクエリでデータを集計することのできる仕組みも普及しています。
- カラム型データ構造
  1. 大規模なデータを扱う際には、どのようなデータフォーマットでデータを格納するかというのが重要な問題になります。BIGDATA解析では近年カラム型のデータ構造で、縦横両方向にIndexをつけて、分散クエリエンジンから高速にアクセスする手法などが活用されています。