Naoyaの部屋 - Apache Spark

ビッグデータ処理基盤に利用されるオープンソースソフトウェアの一つ。

Sparkが開発されたのは2009年で、MapReduceより使いやすいAPIと優れたメモリ管理を実現することが目標だった。

RDD(Resilient Distributed Dataset)と呼ばれるデータ集合に対して変換を行う。

簡単に長所を挙げると、

[Sparkのjobの流れ]

Spark job ⇒ job ⇒ stage ⇒ task

[RDDのメソッド]

[Executor]

タスクと呼ばれる、ジョブ(RDDに対するオペレーション)の最小単位を実行していく計算リソースで、タスクマネージャによってDriver Programからの要求に基づいて起動される。

[Hadoopとの違い]

HadoopのMapReduceではデータ処理をするたびにデータをディスクに書き出し次の処理では再度取得する必要があるため、データを再利用する場合に処理のオーバーヘッドで性能が出なかったが、Sparkは展開したデータを再利用して複数の処理を連続して実行できるようにしたことで処理速度が上がった。

[Prestoとの違い]

Prestoは主にインタラクティブなクエリ処理やデータ分析に特化している一方、Sparkは幅広いデータ処理タスク（バッチ処理、ストリーム処理、機械学習など）に対応する汎用的なエンジン。

[Amazon EMR(Elastic MapReduce)]

Apache Hadoop や Apache Spark などのオープンソースのビッグデータフレームワークを利用して、大量のデータを処理・分析するマネージド型クラスタープラットフォーム。

[AzureにおけるApache Spark]

Sparkでは、RDD、DataFrame、Datasetという３種類のデータセットのAPIが利用可能である。DataFrame のAPI は、SQLに似た宣言的な構文でデータを操作できるだけでなく、手続き型のプログラミングに近い方法でプログラムを実装できる。

[Dependency Shrinkwrap]

依存関係の管理において、特定のバージョンの依存関係を "shrinkwrap" するとは、その依存関係とそのバージョンを確定し、将来の変更を防ぐことを指すことがある。これは、プロジェクトのビルドや実行の安定性を保つために行われる。

[HDInsight Spark cluster]

[リンク]