Databricksや一般的なデータ環境の構成要素をまとめてみた
- Databricksのことを調べつつ、構成しているものって何?とか思いながら、まとめてみました。
背景・経緯
- 昨年までGoogle CloudでBigQueryを中心にデータ分析基盤を扱っていた
- 単純な、Storage(データレイク)→DWH→BIだけでは無さそう
- よりデータ環境の要素を整理して、レイヤーの重なりとそのプロダクトを押さえていきたい
Databricks Components
- Delta Lake
- Data Lake Table Formats
- Databricks Lakehouse
- Delta tables
- ACID transactions
- Data versioning
- ETL
- Indexing
- Unity Catalog
- Data governance
- Data sharing
- Data auditing
- Delta tables
- Databricks SQL
- ad-hoc query
- create visualization
- share dashboards
データ環境の構成要素
- Storage(ストレージ)
- File Format(ファイル形式)
- Data Lake Table Formats(データレイクテーブル形式)
- Data Ware House(データウェアハウス)
- Query Engine(クエリーエンジン)