Azure Databricksとは、Microsoft Azure クラウド サービス プラットフォーム用に最適化された Data Analytics プラットフォームである。
Shared Access Keyをサポートしてない。
DBC formatを使っている。
データを読むときにパラメータを特定するのはUsing.options()
言語を選択する時は%。例:%Pythonや%r
ライブラリをロードしようとしたら失敗→global init scripts logs を見直す。
intervalの間のイベントだけ報告→append mode
AQS(Azure Queue Storage)がABS(Azure Blob Storage)との接続を最適化。
悪意のあるアクティビティやポリシー違反がないかどうかも分析できる。
[クラスターモード]
Standard、High Concurrency、および Single Nodeの3つのクラスターモードをサポートしている。
1日1回バッチ処理をする時は自動化。
クラスターには、ドライバーが 1 つだけある。
[alias(エイリアス)]
元々は偽名、別名、通称という意味。
JavaとScalaで書かれたオープンソースのストーリーミング送受信処理基盤。
[CI/CD]
CI/CD の CD は継続的デリバリーと継続的なデプロイの両方を意味する。
[Parquet(パルケット、またはパーケー)]
Apache Parquet とは、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させる。
ファイルに対する Databricks および PolyBaseからのクエリで発生するエラーが最小限になるStream Analyticsデータ出力形式。
因みにParquetとは寄木細工という意味。
[Pool]
クラスターの開始とスケールアップにかかる時間を短縮する。
[Premium]
自動的にスケールを最適化する。