tetsuwan blog

鉄ワン(@tetsuwan30)の気ままなブログ

Databricksや一般的なデータ環境の構成要素をまとめてみた

  • Databricksのことを調べつつ、構成しているものって何?とか思いながら、まとめてみました。

背景・経緯

  • 昨年までGoogle CloudでBigQueryを中心にデータ分析基盤を扱っていた
  • 単純な、Storage(データレイク)→DWH→BIだけでは無さそう
  • よりデータ環境の要素を整理して、レイヤーの重なりとそのプロダクトを押さえていきたい

Databricks Components

  • Delta Lake
    • Data Lake Table Formats
  • Databricks Lakehouse
    • Delta tables
      • ACID transactions
      • Data versioning
      • ETL
      • Indexing
    • Unity Catalog
      • Data governance
      • Data sharing
      • Data auditing
  • Databricks SQL
    • ad-hoc query
    • create visualization
    • share dashboards

データ環境の構成要素

  • Storage(ストレージ)
  • File Format(ファイル形式)
  • Data Lake Table Formats(データレイクテーブル形式)
  • Data Ware House(データウェアハウス)
  • Query Engine(クエリーエンジン)
    • Hive
    • Presto / Amazon Athena
    • Spark SQL + DataFrame / AWS Glue ETL operations
    • Photon