Spark
★Spark vs Flink
★Pandas DataFrame vs Spark DataFrame
★Pandas vs Dask vs Spark
★処理できるデータサイズ(参考)
Pandas: 1-5G
Pandas + chunksize: 5-30G
Dask: 30-200G
Pyspark: > 1T
★機械学習の方面
spark.mllib:RDD利用(非推奨)
spark.ml:DataFrame利用
RDD:関数型プログラミング、タイプセーフ
DataFrame:リレーショナルモデル、クエリ最適化、Tungsten実行、ソート、シャッフル