データ分析基盤ことはじめ

データ分析基盤を作る最近のトレンドを自分なりにまとめてみます。荒削りですが、あとで追記するかも。

f:id:tetsuwan30:20210317084954j:image

背景・経緯
構成要素

背景・経緯

DXやデジタル推進、コロナ渦の環境変化で変化が更に求められている
ハイブリッドクラウド、マルチクラウドなどシームレスが当たり前になっている
ノーコード、シビックテックなどがDevOppsをより進め、フルマネージドサービスの上で開発のハードルが下がっている

構成要素

Cloud

オンプレやパブリッククラウド、プライベートクラウド、ハイブリッドクラウド、マルチクラウド。境界線を設けたり、跨いだり、マルチリージョンであることでBCPにも。

Google Could
AWS
Microsoft Azure

Orchestration

クラウドが複数あればそれを一括で管理する仕組みが必要。特に異なるベンダーを跨いでできるのがベンダーロックを防ぐことに。

BI / Presentation

BIの歴史は第1世代、第2世代セルフ型、第3世代DWH統合型と地味に変化。ダッシュボードやレポート、メトリクス、アラートなどUIUXの視点でより高度化とスピード化が行われている。

第1世代トラディッショナル型

MicroStrategy

第2世代セルフ型

Tableau（Tableau社/SalesForce社）
データポータル（Google社）

第3世代DWH統合型

Looker（Google社）

参考:BIツール大全 BIツールの歴史
https://speakerdeck.com/shomaekawa/bituruda-quan-biturufalseli-shi

DataCatalog / RevisionControl

メタデータを管理するのは仕組み化をしないと手作業は難しく、データを入れる、データを取得するそれぞれの処理で生まれたメタデータを整理し、可視化する。またコードによる統治で一貫性を効率的に行う世代管理の仕組みも重要である。

Google DataCatalog
git

DWH / DM / DataLake

従来からのデータ基盤。ただし定型、非定型なデータ、構造化、非構造化なデータも扱う必要がある。もちろんスケールやリアルタイム性も重要であり、データベースの特性を把握する必要があるが、フルマネージドであることが望ましい。他のDWHやObjectStorageなど外部データも同時にクエリを流すことも。

BigQuery
Aws Aurora
Azure Sqlserver
Snowflake
Teradata
Olacle

ETL/ELT

データソースを取得(Extract)、使いやすく変換(Transform)、DWHに入れる(Load)を行う一連の処理。今はリソースもコストが安いので、入れたあとに変換することも増えている。DWHでなくてもObjectStorage上で行われることも。

Talend
AWS Glue
Google Fusion

https://www.talend.com/jp/resources/elt-vs-etl/

Prepalation

データの変換加工、クレンジングなどの処理をETLより専門的に行う。BIの観点からDMを作る視点で分析者が使えたり、AIがデータの傾向を掴み、提案を行うことも。

google dataprep
tablue prep
teradata

ObjectStorage

データをオブジェクト、ファイルとして保管する。メタデータも同時に持ちリネージュも把握する。DataRakeとして機能することも。

AWS S3
Google Cloud Storage

AI / ML

データサイエンティストがPythonで行う環境からノーコードでモデルを作るもの、分析者が拡張されたSQLて書くといったものも。

Google AI Platform
Auto ML
BigQuery ML
DataRobot
AWS

API / DataHub

データの入出力やデータから作成したモデルを利用するための仕組みが必要。予めハブになることを想定したサービスもある。

Google Cloud Api
aws
トレジャーデータ

Security

データ流出防止や秘匿化、アカウントやログの監視、検出などの仕組みが必要。それ自体をデータとして、モニタできるのが重要。

ゆるかわの日記

暮らしに役立つかもしれないことを書きます