cover|150

Highlight

  • ビッグデータの分析はデータの生成・収集・蓄積・活用からなる

    • 生成:クリックで発火するイベント送信など
    • 収集:ストリーム or バッチ
    • 蓄積:データレイク(S3, GCS)、データウェアハウス(BigQuery)、メタデータ管理(DataCatalog)
    • 活用:データマート(BI Looker, metabse、ターゲティング広告のリアルタイムデータアプリなども)
  • 分析組織には「サイエンス担当」「エンジニアリング担当」「データビジネス担当」の3種類が存在する

  • データ収集はデータ構造の変化との戦い。プロセスを決める必要がある

  • データマートを作る目的は2つ

    • 計算リソース削減
    • 汎用的な集計の統一化
    • CTAS(Create table as select)で作るか、外部の機械学習を噛ませて作るか
  • 「レポートの値が一致しない」を防ぐために、データリネージを活用する

  • DMBOKというデータマネジメントを体系化した書籍もある