Spark

★Spark vs Flink

★Pandas DataFrame vs Spark DataFrame

★Pandas vs Dask vs Spark

★処理できるデータサイズ(参考)

Pandas: 1-5G

Pandas + chunksize: 5-30G

Dask: 30-200G

Pyspark: > 1T

★機械学習の方面

spark.mllib:RDD利用(非推奨)

spark.ml:DataFrame利用

RDD:関数型プログラミング、タイプセーフ

DataFrame:リレーショナルモデル、クエリ最適化、Tungsten実行、ソート、シャッフル