Highlight
-
ビッグデータの分析はデータの生成・収集・蓄積・活用からなる
- 生成:クリックで発火するイベント送信など
- 収集:ストリーム or バッチ
- 蓄積:データレイク(S3, GCS)、データウェアハウス(BigQuery)、メタデータ管理(DataCatalog)
- 活用:データマート(BI Looker, metabse、ターゲティング広告のリアルタイムデータアプリなども)
-
分析組織には「サイエンス担当」「エンジニアリング担当」「データビジネス担当」の3種類が存在する
-
データ収集はデータ構造の変化との戦い。プロセスを決める必要がある
-
データマートを作る目的は2つ
- 計算リソース削減
- 汎用的な集計の統一化
- CTAS(Create table as select)で作るか、外部の機械学習を噛ませて作るか
-
「レポートの値が一致しない」を防ぐために、データリネージを活用する
-
DMBOKというデータマネジメントを体系化した書籍もある

