データ分析基盤を作る最近のトレンドを自分なりにまとめてみます。荒削りですが、あとで追記するかも。
背景・経緯
- DXやデジタル推進、コロナ渦の環境変化で変化が更に求められている
- ハイブリッドクラウド、マルチクラウドなどシームレスが当たり前になっている
- ノーコード、シビックテックなどがDevOppsをより進め、フルマネージドサービスの上で開発のハードルが下がっている
構成要素
Cloud
オンプレやパブリッククラウド、プライベートクラウド、ハイブリッドクラウド、マルチクラウド。境界線を設けたり、跨いだり、マルチリージョンであることでBCPにも。
Orchestration
クラウドが複数あればそれを一括で管理する仕組みが必要。特に異なるベンダーを跨いでできるのがベンダーロックを防ぐことに。
BI / Presentation
BIの歴史は第1世代、第2世代セルフ型、第3世代DWH統合型と地味に変化。ダッシュボードやレポート、メトリクス、アラートなどUIUXの視点でより高度化とスピード化が行われている。
第1世代トラディッショナル型
- MicroStrategy
第2世代セルフ型
- Tableau(Tableau社/SalesForce社)
- データポータル(Google社)
第3世代DWH統合型
- Looker(Google社)
- 参考:BIツール大全 BIツールの歴史
- https://speakerdeck.com/shomaekawa/bituruda-quan-biturufalseli-shi
DataCatalog / RevisionControl
メタデータを管理するのは仕組み化をしないと手作業は難しく、データを入れる、データを取得するそれぞれの処理で生まれたメタデータを整理し、可視化する。またコードによる統治で一貫性を効率的に行う世代管理の仕組みも重要である。
- Google DataCatalog
- git
DWH / DM / DataLake
従来からのデータ基盤。ただし定型、非定型なデータ、構造化、非構造化なデータも扱う必要がある。もちろんスケールやリアルタイム性も重要であり、データベースの特性を把握する必要があるが、フルマネージドであることが望ましい。他のDWHやObjectStorageなど外部データも同時にクエリを流すことも。
ETL/ELT
データソースを取得(Extract)、使いやすく変換(Transform)、DWHに入れる(Load)を行う一連の処理。今はリソースもコストが安いので、入れたあとに変換することも増えている。DWHでなくてもObjectStorage上で行われることも。
https://www.talend.com/jp/resources/elt-vs-etl/
Prepalation
データの変換加工、クレンジングなどの処理をETLより専門的に行う。BIの観点からDMを作る視点で分析者が使えたり、AIがデータの傾向を掴み、提案を行うことも。
- google dataprep
- tablue prep
- teradata
ObjectStorage
データをオブジェクト、ファイルとして保管する。メタデータも同時に持ちリネージュも把握する。DataRakeとして機能することも。
AI / ML
データサイエンティストがPythonで行う環境からノーコードでモデルを作るもの、分析者が拡張されたSQLて書くといったものも。
API / DataHub
データの入出力やデータから作成したモデルを利用するための仕組みが必要。予めハブになることを想定したサービスもある。
Security
データ流出防止や秘匿化、アカウントやログの監視、検出などの仕組みが必要。それ自体をデータとして、モニタできるのが重要。