Skip to content

Instantly share code, notes, and snippets.

@manji602
Created April 29, 2015 11:03
Show Gist options
  • Select an option

  • Save manji602/79c8a44d3c382c5df3b3 to your computer and use it in GitHub Desktop.

Select an option

Save manji602/79c8a44d3c382c5df3b3 to your computer and use it in GitHub Desktop.

B-5 ビッグデータを活用するための分析プラットフォーム 〜データ集計した先に求められる分析技術〜

16:00-16:40

データ分析について

  • データ分析とは

    • Collecting
      • 収集
      • リーズナブルな収集。大量なデータの保持
    • Reporting
      • サービスの状況を報告
      • 柔軟なデータの集計。わかりやすいチャートでの可視化
    • Analyzing
      • サービスの問題や改善点を分析
      • 簡便で高速なデータの抽出。
  • ニーズ

    • エンジニア
      • UIはどうでもいい。生のデータが良い
    • プランナー
      • KPI。きれいなグラフで見たい。Excelダウンロード

分析プラットフォームの構成

  • For エンジニア
    • 凝ったことはしない
    • SQLのクエリが実行できる
    • APIによるバッチ処理との連携が可能
    • システム構成
      • ログ収集;Fluentd
      • リアルタイム集計処理:Norikra
      • Webベースのクエリツール: Shib, ShibUI

  • For プランナー

    • データを可視化
    • データのダウンロード(Excel)
    • No SQL(SQLは書けない)
    • システム構成
      • 大規模分散データ処理環境:Hadoop
        • HDFS, Map/Reduce, YARN
      • 大規模データに対するDWH:Hive
        • SQLらいくなクエリ言語でデータ集計・問い合わせが可能
      • 分散データ処理園児:Presto
        • Hiveに比べて高速
        • Prestogres:PrestoとBIを接続するためのコネクタ
      • Data Ware House:InfiniDB
        • MySQLベースのカラム型分散DB
        • BIツールやクライアントツールを利用可能
      • BIツール:IBM Cognos
        • IBM社製のレポートオーサリングソフト
        • 複雑な表に対応できる(ヒートマップなど)
      • BIツール:Pentaho
        • OLAP型の多次元分析用システム
  • 重要視していること

    • API連携がしやすい
    • なるべくOSSを採用し、足りないものは自前で
    • データはなるべく隠蔽
      • 認証をしっかりする
      • ユーザ情報は見せない
    • ユーザトラッキングはしない
      • 人が多すぎるので百苦労あって一利なし

グローバル化で見えてきた課題

  • サービスの変化

    • グローバル化、多様化、長寿化
  • 人の変化

    • プランナーの増加

  • 結果生じること:KPIの増加

    • サービス・メジャー・ディメンジョンで爆増
    • 訳の分からないフラグ、訳の分からない要望
    • => KPIが増加し、忙しくなる
      • 誰もKPIを見なくなる
  • 多すぎる、ならKPIを人手で見なくてもいい

    • KPIの変化を伝えられるようにすることが重要

  • KPIモニタリングツールの開発
    • トレンドの分析を自動化
    • 時系列のトレンドを学習し、予測値を算出
      • 異常値を検出してアラート(メール or chat)
    • 構成
      • Timeseries Producer
      • Timeseries Monitor : 予測値と実測値を比較
      • Nortification Monitor : 予測値と実測値が大幅に異なるなら、通知する

まとめ

  • Hadoopをベースに基本に忠実に
    • OSSベースで対応
    • 認証はきちんと
    • ユーザ情報は隠蔽
  • KPIモニタリングを強化
    • 増え続けるKPIを自動的に処理
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment