tetsuwan blog

鉄ワン(@tetsuwan30)の気ままなダイアリー

データ分析基盤ことはじめ

データ分析基盤を作る最近のトレンドを自分なりにまとめてみます。荒削りですが、あとで追記するかも。


f:id:tetsuwan30:20210317084954j:image

 

 

背景・経緯

  • DXやデジタル推進、コロナ渦の環境変化で変化が更に求められている
  • ハイブリッドクラウド、マルチクラウドなどシームレスが当たり前になっている
  • ノーコード、シビックテックなどがDevOppsをより進め、フルマネージドサービスの上で開発のハードルが下がっている

構成要素

Cloud

オンプレやパブリッククラウドプライベートクラウド、ハイブリッドクラウド、マルチクラウド。境界線を設けたり、跨いだり、マルチリージョンであることでBCPにも。

Orchestration

クラウドが複数あればそれを一括で管理する仕組みが必要。特に異なるベンダーを跨いでできるのがベンダーロックを防ぐことに。

BI / Presentation

BIの歴史は第1世代、第2世代セルフ型、第3世代DWH統合型と地味に変化。ダッシュボードやレポート、メトリクス、アラートなどUIUXの視点でより高度化とスピード化が行われている。

第1世代トラディッショナル型

  • MicroStrategy

第2世代セルフ型

第3世代DWH統合型

 

DataCatalog / RevisionControl

メタデータを管理するのは仕組み化をしないと手作業は難しく、データを入れる、データを取得するそれぞれの処理で生まれたメタデータを整理し、可視化する。またコードによる統治で一貫性を効率的に行う世代管理の仕組みも重要である。

DWH / DM / DataLake

従来からのデータ基盤。ただし定型、非定型なデータ、構造化、非構造化なデータも扱う必要がある。もちろんスケールやリアルタイム性も重要であり、データベースの特性を把握する必要があるが、フルマネージドであることが望ましい。他のDWHやObjectStorageなど外部データも同時にクエリを流すことも。

ETL/ELT

データソースを取得(Extract)、使いやすく変換(Transform)、DWHに入れる(Load)を行う一連の処理。今はリソースもコストが安いので、入れたあとに変換することも増えている。DWHでなくてもObjectStorage上で行われることも。

https://www.talend.com/jp/resources/elt-vs-etl/

Prepalation

データの変換加工、クレンジングなどの処理をETLより専門的に行う。BIの観点からDMを作る視点で分析者が使えたり、AIがデータの傾向を掴み、提案を行うことも。

  • google dataprep
  • tablue prep
  • teradata
ObjectStorage

データをオブジェクト、ファイルとして保管する。メタデータも同時に持ちリネージュも把握する。DataRakeとして機能することも。

AI / ML

データサイエンティストがPythonで行う環境からノーコードでモデルを作るもの、分析者が拡張されたSQLて書くといったものも。

  • Google AI Platform
  • Auto ML
  • BigQuery ML
  • DataRobot
  • AWS
API / DataHub

データの入出力やデータから作成したモデルを利用するための仕組みが必要。予めハブになることを想定したサービスもある。

Security

データ流出防止や秘匿化、アカウントやログの監視、検出などの仕組みが必要。それ自体をデータとして、モニタできるのが重要。